BoW概览
处理对象:最开始的词袋模型,正如其名所示是为了处理文字相关的问题,特别的在文本分类进而在文本检索方面有着良好的应用。在后面的发展中,词袋模型逐渐将分类依据抽象出来从而被泛化应用到诸如图像分类与表示等方面。
处理特点:对于一句话而言,BoW并不关心这句话的语法构成,或者说是单词的排列顺序,而是关心在这句话中每个词汇各出现了多少次。比如
My friend Jack like Jack Ma.
这里面出现了:my,friend,Jack,like,Ma 这些词汇
它们共出现了:1,1,2,1,1 次
这可以某种程度上对这句话做一些表示
具体场景
- 整理单词:假设我们有文件(file)F1, … , Fm,一共m个。每个分别包含C1, … , Cm(category)种单词。把这m个文件的单词种类归并一下,记这m个文件一共有C个互不相同的单词。
- 文件的向量表示:每个文件可由一个C维的向量进行表示。这个向量在意义上,每个分量表示不同的单词在该文件中出现了几次,从而得到m个文件的表示,V1, … , Vm (vector)。