TF-IDF向量计算
TF-IDF是针对文本统计的方法。其主要思想在于将每个文档视为一个向量,而其每个分量是由某个单词计算出的数据。TF-IDF对单词的统计包含两个方面,一个是词频一个是逆文档频率。词频即是一个单词在文档中出现的频率,逆文档频率是一个单词在全部文档中出现的频率,它相当于对单词的加权,在众多文档中出现频率较高的无关词比如冠词,介词等虚词的逆文档频率较低,使其在衡量文档相似度中做出的贡献较小。在文档向量的各个分量加权之后,较高的几个分量即可视为该文档的关键词。
在邮件数据集中,简单统计可以得到在该数据集中的单词量约为十多万个,这也就是说如果构成完整的词向量,每个邮件的词向量将有十万多的长度,而其中大多数分量为0,因为单个邮件中的单词数仅为几百词。为了减少存储空间和读写时间,我们不记录完整的词向量而是仅记录分量不为0的分量,通过字典以词-值的键值对形式保存。结果写入到文件中时,以邮件编号+单词+对应分量值+…的形式保存,中间以空格分割,不同邮件以换行符分割。
下面是通过java计算邮件tf-idf向量的伪代码。他遍历邮件数据,先统计词频和词出现文档书,然后对每一个向量计算对应的tf*idf值。
TF-IDF()
@输入:全部邮件
@输出:每封邮件对应的向量
1.建立空Map idf,每封邮件建立空map tf
2.for(所有邮件)
for(每个单词)
if(不在对应邮件map