任务要求:学习TF-IDF理论并实践,使用TF-IDF表示文本
初识TF-IDF
概念
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。
原理
TF表征词汇w在文档d出现的频率;IDF表征词的普遍重要性,它可由总文件数目除以包含该词语的文件数目取对数得到。
一般而言;词的重要性随着它在文本中出现的次数成正比,但也会随着其在语料库中出现的频率成反比,例如词汇 你,我,她,的 等,这类词汇称为停用词。所以说TF-IDF是一种基于bag-of-word的方法。TF-IDF的主要思想就是寻找在该文档中出现频率高但在其他文章中很少出现的词汇,其计算方式为:TF * IDF ,其中TF计算方式为: T F i , j = n i , j ∑ k n k , j TF_{i,j} = \frac {n_{i,j}} {\sum_k n_{k,j}} TFi,j=∑knk,jni,j
上式中 n i , j n_{i,j} ni,j