二、词袋模型(BOW)

引言

词袋模型(Bag of Words, BOW)的基本思想是把一个句子转化为向量表示,它不考虑句子中单词的顺序,仅仅考虑语料库某个词在这个句子中的出现次数。


1 表示方法

例如,有如下两句话:

  • 句子1:小唐喜欢看电视剧,小王也喜欢看电视剧
  • 句子2:小唐还喜欢看电影

对于这两个句子,我们要用词袋模型把它转化为向量表示,给每个词一个位置索引,这两个句子形成的词表为:

{'小唐': 0, '小王': 1, '还': 2, '也': 3, '喜欢': 4, '看': 5, '电视剧': 6, '电影': 7}

如果文本中含有的一个词出现了一次,那么让这个词的位置置为1,词出现几次就置为几,其中key为词,value为词的索引,语料中共有 8 个单词, 那么每个文本我们就可以使用一个8 维的向量来表示。上述文本的向量表示为:

  • 句子1:[1, 1, 0, 1, 2, 2, 2, 1]
  • 句子2:[1, 0, 1, 0, 1, 1, 0, 1]

2 存在的问题

词袋模型存在较大的问题是丢失词序信息和稀疏性

2.1 丢失词序信息

词袋模型只考虑了词的出现次数,忽略了词在文本中的顺序,因此无法捕捉到词之间的上下文关系和语义信息。

2.2 稀疏性

词袋模型使用了固定大小的词汇表来表示文本,当词汇表过大时,会增加模型的复杂度和存储空间。在大多数情况下,文本数据中出现的词汇只占据词汇表的一小部分,导致词袋表示是一个稀疏向量,存在大量的零值,这会影响模型的性能和效率。

  • 25
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

瑞雪兆我心

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值