TF-IDF（java实现）

最新推荐文章于 2024-06-13 23:22:01 发布

带着小板凳学习

最新推荐文章于 2024-06-13 23:22:01 发布

阅读量8.6k

点赞数 5

文章标签： java

本文链接：https://blog.csdn.net/u013963380/article/details/75202106

版权

本文介绍了使用Java实现TF-IDF算法的过程，包括TF-IDF的思想、程序实现以及完整代码的分享。作者提供了分词工具类和TF-IDF代码的GitHub链接，便于读者获取和使用。

摘要由CSDN通过智能技术生成

0写在前面：

前些天研究所有个处理文本的任务，将文本分完词然后利用tfidf计算每个文档中单词的tfidf值，其中文本（是一些舆情的新闻）已经有特定标签，表示是正向、负向还是中性的文本。后续使用这些处理好的文档来做一些舆情的情感预测。
在网上查找了一些有关java编写的tfidf程序，发现有的写的很混乱，而且没有相关的注释，阅读起来有很大的不方便，遂自己重写编写了一下tfidf，大神轻喷代码。

1.tfidf的思想

TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
TFIDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。
IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n=m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。
但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处. 在一份给定的文件里，词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。

2.程序实现

首先是计算tf的代码：我们使用map来存储tf的结果，这个地方需要注意的是，我们先通过分词软件将所有的文档读成一个map，Map< String,String >其中key是每个文档的文档名，对应的value是

最低0.47元/天解锁文章

带着小板凳学习

关注

5
点赞
踩
24

收藏

觉得还不错? 一键收藏
2
评论
TF-IDF（java实现）

0写在前面：前些天研究所有个处理文本的任务，将文本分完词然后利用tfidf计算每个文档中单词的tfidf值，其中文本（是一些舆情的新闻）已经有特定标签，表示是正向、负向还是中性的文本。后续使用这些处理好的文档来做一些舆情的情感预测。
复制链接

扫一扫