- Bag of words
Bag-of-words 是一种忽略文本的语法和语序的模型,用一组无序的单词(words)以及对应的特征列来表示一个文档(目前在cv领域用的多,将图像的的特征当作单词),下面有一个具体的例子:
1)John likes to watch movies. Mary likes too.
2)John also likes to watch football games.
根据上面的文档构建一个字典:
{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also": 6, "football": 7, "games": 8, "Mary": 9, "too": 10}
然后根据上面的字典可以用向量的形式表现出两个文档:
1)[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
2)[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]
2. TF-IDF
TFIDF是Term Frequency - Inverse Document Frequency的缩写,TF反应一个词在当前文档中的词频,而IDF反应一个词在所有文档出现的频率,如果一个词在所有文档中出现的频率比较高那么对应IDF值比较低
1) TF:一个词在当前文档中出现的次数比上当前文档的词汇量:
2) IDF: 文档总数N与一个词在所有文档出现的文档数相比
3) TF-IDF