文档分类
通常文档中最常出现的词都是无意义的常用词,而关于主题的词语通常出现的并不多,但又不是所有少见的词都有用。
1.找出跟主题相关的重要词汇;
2. 计算TF.IDF,度量给定词语在少数文档中反复出现程度的形式化指标称为TF.IDF(Term Frequency, Inverse Document Frequency)
TF_{ij} = f_{ij}/max_kf_{kj}
f_{ij}表示词项i在文档j中出现的频率,而max_kf_{kj}表示最大词项x出现在j中的频率
IDF_i = log2N/n_i
词项i在文档集中的n_i篇文档中出现
具有最高TF.IDF得分的那些词项通常都是刻画文档主题的最佳词项
自然对数e
常数e=2.7182818
1. x趋近于无穷大时,(1+1/x)^x = e
幂定律
两个变量之间在对数空间下呈现线性关系,称为幂定律(power law)