Kmeans-Mapreduce实现邮件分类

TF-IDF向量计算

TF-IDF是针对文本统计的方法。其主要思想在于将每个文档视为一个向量,而其每个分量是由某个单词计算出的数据。TF-IDF对单词的统计包含两个方面,一个是词频一个是逆文档频率。词频即是一个单词在文档中出现的频率,逆文档频率是一个单词在全部文档中出现的频率,它相当于对单词的加权,在众多文档中出现频率较高的无关词比如冠词,介词等虚词的逆文档频率较低,使其在衡量文档相似度中做出的贡献较小。在文档向量的各个分量加权之后,较高的几个分量即可视为该文档的关键词。

公式

在邮件数据集中,简单统计可以得到在该数据集中的单词量约为十多万个,这也就是说如果构成完整的词向量,每个邮件的词向量将有十万多的长度,而其中大多数分量为0,因为单个邮件中的单词数仅为几百词。为了减少存储空间和读写时间,我们不记录完整的词向量而是仅记录分量不为0的分量,通过字典以词-值的键值对形式保存。结果写入到文件中时,以邮件编号+单词+对应分量值+…的形式保存,中间以空格分割,不同邮件以换行符分割。

下面是通过java计算邮件tf-idf向量的伪代码。他遍历邮件数据,先统计词频和词出现文档书,然后对每一个向量计算对应的tf*idf值。

TF-IDF()
@输入:全部邮件
@输出:每封邮件对应的向量
1.建立空Map idf,每封邮件建立空map tf
2.for(所有邮件)
           for(每个单词)
                     if(不在对应邮件map
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值