词袋模型最常用的是可以将其得到的文档词频(term frequency)作为一个 feature。比如上文中的文档1和文档2,其 term frequency feature 可以用列表表示为
(1) [1, 2, 1, 1, 2, 1, 1, 0, 0, 0]
(2) [0, 1, 1, 1, 0, 1, 0, 1, 1, 1]
其中,
的第一个元素值 1 表示 John 在文档 1 中出现了一次,第二个元素值 2 表示 likes 出现了两次。
词袋模型并没有保留原文档的语法结构。同时, term frequency 也**不是文档的最佳向量表示。**常用词如 **‘the’,‘a’,‘to’ 无疑是最高频的词,但是这些高频词在文档中并不是最重要的信息。**解决这个问题的一种方法是 tf-idf
引用:TF-IDF 原理与实现
TF-IDF
Tf-idf 是用来给词语进行加权的,对于给定的一堆语料库,给一个文档,和一个文档里的词,可以得到这个词在这一堆文档里面的权重。
tf:term frequency
词频,越经常出现的词越重要
idf:inversed document frequency
逆文档频率,越在各个文档里面出现得多的词越不重要
Tf-idf = tf * log(N/n)
N 就是所有文档的个数
n是出现这一个词的文档数