词袋模型

最新推荐文章于 2024-05-21 01:37:29 发布

sj1565

最新推荐文章于 2024-05-21 01:37:29 发布

阅读量754

点赞数

分类专栏：资料文章标签： nlp 自然语言词袋模型

资料专栏收录该内容

5 篇文章 0 订阅

订阅专栏

#  操作词袋模型：
# CountVectorizer：对语料库中出现的词汇进行词频统计，相当于词袋模型。
# 操作方式：将语料库当中出现的词汇作为特征，将词汇在当前文档中出现的频率（次数）作为特征值。
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
count = CountVectorizer()

# 语料库
docs = np.array([
    "Where there is a will, there is a way.",
    "There is no royal road to learning.",
])
# bag是一个稀疏的矩阵。因为词袋模型就是一种稀疏的表示。
bag = count.fit_transform(docs)
# 输出单词与编号的映射关系。
print(count.vocabulary_)
# 调用稀疏矩阵的toarray方法，将稀疏矩阵转换为ndarray对象。
print(bag)
print(bag.toarray())

# where映射为编号8  there映射为编号5······
# 编号也是bag.toarray转换来的ndarray数组的索引

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sj1565

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
词袋模型

# 操作词袋模型：# CountVectorizer：对语料库中出现的词汇进行词频统计，相当于词袋模型。# 操作方式：将语料库当中出现的词汇作为特征，将词汇在当前文档中出现的频率（次数）作为特征值。import numpy as npfrom sklearn.feature_extraction.text import CountVectorizercount = CountVecto...
复制链接

扫一扫