词袋模型 直观理解就是将一篇文章看成一袋子词,并忽略每个词出现的顺序。 实施方式 将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量中的每一个维度代表一个单词,而该维对应的权重则反映该词在原文中的重要程度。 权重计算 常用TF-IDF计算权重: T F − I D F ( t , d ) = T F ( t , d ) × I D F ( t ) TF-IDF(t,d)=TF(t,d)×IDF(t) TF−