ngram

最新推荐文章于 2023-09-28 10:40:07 发布

ZXY_Hobby

最新推荐文章于 2023-09-28 10:40:07 发布

阅读量862

点赞数

分类专栏：自然语言处理*

本文链接：https://blog.csdn.net/ZXY_Hobby/article/details/101110609

版权

自然语言处理* 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

通常，2gram的情况：
我爱/爱自/自然/然语/语言/言处/处理

但是，中文在实际中，使用短语的组合；英文在实际中，使用单词的组合。
实验结果
ngram的python实现，基于sklearn

from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import jieba
data = ["为了祖国，向我开炮", "今天，为了是个晴朗的天气。"]
data = [" ".join(jieba.lcut(e)) for e in data]
print("data: %s" % data)
vec = CountVectorizer(min_df=1, ngram_range=(1,2))
X = vec.fit_transform(data)
# X.toarray(), vec.get_feature_names() 考虑了item的过滤
df = pd.DataFrame(X.toarray(), index=['a','b'],columns=vec.get_feature_names())
df.head()

code说明，对每个句子分词，得到每个句子对应的ngram，得到所有的ngram tokenization（分词）。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ZXY_Hobby

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ngram

简化链式规则，预测概率对于1-gram，其假设是P(wn|w1w2…wn-1)≈P(wn|wn-1)对于2-gram，其假设是P(wn|w1w2…wn-1)≈P(wn|wn-1,wn-2)对于3-gram，其假设是P(wn|w1w2…wn-1)≈P(wn|wn-1,wn-2,wn-3)通常，2gram的情况：我爱/爱自/自然/然语/语言/言处/处理ngram的python实现，基于s...
复制链接

扫一扫