二、词袋模型（BOW）

瑞雪兆我心

已于 2024-03-07 20:17:50 修改

阅读量947

点赞数 25

文章标签：自然语言处理人工智能

于 2024-03-04 11:17:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/contributed_l/article/details/136446747

版权

引言

词袋模型（Bag of Words, BOW）的基本思想是把一个句子转化为向量表示，它不考虑句子中单词的顺序，仅仅考虑语料库某个词在这个句子中的出现次数。

1 表示方法

例如，有如下两句话：

句子1：小唐喜欢看电视剧，小王也喜欢看电视剧
句子2：小唐还喜欢看电影

对于这两个句子，我们要用词袋模型把它转化为向量表示，给每个词一个位置索引，这两个句子形成的词表为：

{'小唐': 0, '小王': 1, '还': 2, '也': 3, '喜欢': 4, '看': 5, '电视剧': 6, '电影': 7}

如果文本中含有的一个词出现了一次，那么让这个词的位置置为1，词出现几次就置为几，其中key为词，value为词的索引，语料中共有 8 个单词，那么每个文本我们就可以使用一个8 维的向量来表示。上述文本的向量表示为：

句子1：[1, 1, 0, 1, 2, 2, 2, 1]
句子2：[1, 0, 1, 0, 1, 1, 0, 1]

2 存在的问题

词袋模型存在较大的问题是丢失词序信息和稀疏性。

2.1 丢失词序信息

词袋模型只考虑了词的出现次数，忽略了词在文本中的顺序，因此无法捕捉到词之间的上下文关系和语义信息。

2.2 稀疏性

词袋模型使用了固定大小的词汇表来表示文本，当词汇表过大时，会增加模型的复杂度和存储空间。在大多数情况下，文本数据中出现的词汇只占据词汇表的一小部分，导致词袋表示是一个稀疏向量，存在大量的零值，这会影响模型的性能和效率。

瑞雪兆我心

博客等级

码龄4年

38
原创

1112
点赞

1271
收藏

837
粉丝

关注

私信

热门文章

上一篇：: 一、独热编码（One-Hot）

下一篇：: 三、N元语法（N-gram）

最新评论

实时语音识别（Python+HTML实战）
望江盼船: 你好，请问使用哪个版本的funasr，为什么本地运行报错AttributeError: 'dict' object has no attribute 'merge_with'
Neo4j安装和启动教程
m0_74826317: 你好，请问可以分享一下neo4j的安装包吗
Neo4j安装和启动教程
是森然吖: 我最后出错的原因是这个，为啥啊 Invoke-Neo4j : Could not find java at D:\jdk-21\bin\java.exe 所在位置 D:\Neo4j+JDK\neo4j-community-5.15.0\bin\neo4j.ps1:21 字符: 7 + Exit (Invoke-Neo4j -Verbose:$Arguments.Verbose -CommandArgs $Argument ... + ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ + CategoryInfo : NotSpecified: (:) [Write-Error], WriteErrorException + FullyQualifiedErrorId : Microsoft.PowerShell.Commands.WriteErrorException,Invoke-Neo4j
Neo4j安装和启动教程
k64566: 最后登录是这样怎么搞出错了：“NotFoundError：无法在'Node'上执行 'removeChild'：要删除的节点不是此节点的子节点。”并且应用程序无法恢复。重新加载应用程序
Neo4j基础知识学习+案例分析实战
2401_88706225: 很有用，谢谢☺️

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

瑞雪兆我心 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。