【转载】-Bag of Words(词袋模型)

最新推荐文章于 2024-06-26 20:37:47 发布

Foneone

最新推荐文章于 2024-06-26 20:37:47 发布

阅读量497

点赞数

分类专栏： NLP 文章标签： Bag of words

原文链接：https://blog.csdn.net/JYZ4MFC/article/details/81223572

版权

NLP 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

转载自：https://blog.csdn.net/JYZ4MFC/article/details/81223572

Bag of Words 即词袋模型，是对样本数据的一种表示方法，主要应用在 NLP(自然语言处理)和 IR(信息检索)领域，近年也开始在 CV（计算机视觉）发挥作用。

该模型在表示样本数据时，可以假设假设：一个文档可以看作一袋子的单词，而不考虑其语法和词序关系，每个词都是独立的。即将文本映射成为一个包含词的向量，向量的长度是词典的大小，每一位表示词典中的一个词，向量中的每一位上的数值表示该词在文本中出现的次数。对于一个文本，其词向量通常是稀疏的。

有这样两个简单的文本文档：
【1】John likes to watch movies. Mary likes too.
【2】John also likes to watch football games.

对上述两个文档构造词典： { “John”: 1, “likes”: 2, “to”: 3, “watch”: 4, “movies”: 5, “also”: 6,
“football”: 7, “games”: 8, “Mary”: 9, “too”: 10}

词典中共有10个单词，每个单词后面是序号。那么，我们可以用一个向量表示一个文本文档：

第一个文档->[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]

第二个文档->[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

上面的这个矩阵，就是词袋模型了，其中每个分量表示该单词在该文档中的出现次数。从上述的表示中，可以很清楚地看出来，在文档表示过程中并没有考虑关键词的顺序，而是仅仅将文档看成是一些关键词出现的概率的集合(这是Bag-of-words模型的缺点之一)，每个关键词之间是相互独立的，这样每个文档可以表示成关键词出现频率的统计集合，类似于直方图的统计表示。

矩阵图中的每一项，不仅可以用词典频数表示，也可以利用tf-idf表示词项的权重。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Foneone CSDN认证博客专家 CSDN认证企业博客

码龄8年

142: 原创

3万+: 周排名

216万+: 总排名

106万+: 访问

: 等级

6977: 积分

846: 粉丝

1195: 获赞

363: 评论

6337: 收藏

私信

关注

热门文章

分类专栏

MIMIC数据库付费 21篇
SQL 8篇
刷题 36篇
NLP 9篇
海报分享 1篇
晚安 1篇
PGSQL 1篇
Axure 1篇
linux 2篇
sklearn 1篇
matplotlib
平时工作问题记录 35篇
机器学习 8篇
pytorch 13篇
tkinter 6篇
numpy 1篇
机器学习理论学习 16篇

最新评论

时间序列模型（ARIMA和ARMA）完整步骤详述
2301_76763198: 一开始的导入数据包和版本声明报错怎么办？
pytorch - K折交叉验证过程说明及实现
Hermit547: 这里定义k fold的时候是不是有点问题，看代码显然X_train会包含X_valid，感觉在elf X_train is None那边还应该加一个限定j!=i才行啊
遗传算法（GA）中的编码方式-二进制编码、格雷编码、实数编码
BadGrin: 0.2那个点为什么是表示为0100000000，那0.9的二进制串是表示0000000010吗，那么根据解码公式计算出来的精度相差0.8左右了吧..
时间序列模型（ARIMA和ARMA）完整步骤详述
Nianianla: 有可能是数据列有周期性，用SARIMA选择不同是周期可能会有比较好的预测结果
pytorch中的nn.LSTM模块参数详解
望舒剑鞘: num_layer=2的那张图清晰明了，多层情况下句子每个单词的信息传递方式画得很清楚，感谢博主！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。