【Bag of Words BoW】词袋模型

BoW概览

处理对象:最开始的词袋模型,正如其名所示是为了处理文字相关的问题,特别的在文本分类进而在文本检索方面有着良好的应用。在后面的发展中,词袋模型逐渐将分类依据抽象出来从而被泛化应用到诸如图像分类与表示等方面。
处理特点:对于一句话而言,BoW并不关心这句话的语法构成,或者说是单词的排列顺序,而是关心在这句话中每个词汇各出现了多少次。比如
My friend Jack like Jack Ma.
这里面出现了:my,friend,Jack,like,Ma 这些词汇
它们共出现了:1,1,2,1,1 次
这可以某种程度上对这句话做一些表示

具体场景

  • 整理单词:假设我们有文件(file)F1, … , Fm,一共m个。每个分别包含C1, … , Cm(category)种单词。把这m个文件的单词种类归并一下,记这m个文件一共有C个互不相同的单词。
  • 文件的向量表示:每个文件可由一个C维的向量进行表示。这个向量在意义上,每个分量表示不同的单词在该文件中出现了几次,从而得到m个文件的表示,V1, … , Vm (vector)。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值