Kmeans-Mapreduce实现邮件分类

最新推荐文章于 2024-01-03 08:45:00 发布

ahawdy

最新推荐文章于 2024-01-03 08:45:00 发布

阅读量685

点赞数

分类专栏：大数据实战文章标签： Hadoop Kmeans 邮件分类 Mapredue

本文链接：https://blog.csdn.net/weixin_41802971/article/details/88784633

版权

TF-IDF向量计算

TF-IDF是针对文本统计的方法。其主要思想在于将每个文档视为一个向量，而其每个分量是由某个单词计算出的数据。TF-IDF对单词的统计包含两个方面，一个是词频一个是逆文档频率。词频即是一个单词在文档中出现的频率，逆文档频率是一个单词在全部文档中出现的频率，它相当于对单词的加权，在众多文档中出现频率较高的无关词比如冠词，介词等虚词的逆文档频率较低，使其在衡量文档相似度中做出的贡献较小。在文档向量的各个分量加权之后，较高的几个分量即可视为该文档的关键词。

在邮件数据集中，简单统计可以得到在该数据集中的单词量约为十多万个，这也就是说如果构成完整的词向量，每个邮件的词向量将有十万多的长度，而其中大多数分量为0，因为单个邮件中的单词数仅为几百词。为了减少存储空间和读写时间，我们不记录完整的词向量而是仅记录分量不为0的分量，通过字典以词-值的键值对形式保存。结果写入到文件中时，以邮件编号+单词+对应分量值+…的形式保存，中间以空格分割，不同邮件以换行符分割。

下面是通过java计算邮件tf-idf向量的伪代码。他遍历邮件数据，先统计词频和词出现文档书，然后对每一个向量计算对应的tf*idf值。

TF-IDF()
@输入：全部邮件
@输出：每封邮件对应的向量
1.建立空Map idf，每封邮件建立空map tf
2.for（所有邮件）
           for（每个单词）
                     if（不在对应邮件map

最低0.47元/天解锁文章

ahawdy

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Kmeans-Mapreduce实现邮件分类

TF-IDF向量计算TF-IDF是针对文本统计的方法。其主要思想在于将每个文档视为一个向量，而其每个分量是由某个单词计算出的数据。TF-IDF对单词的统计包含两个方面，一个是词频一个是逆文档频率。词频即是一个单词在文档中出现的频率，逆文档频率是一个单词在全部文档中出现的频率，它相当于对单词的加权，在众多文档中出现频率较高的无关词比如冠词，介词等虚词的逆文档频率较低，使其在衡量文档相似度中做出的贡...
复制链接

扫一扫