hadoop基于MapReduce实现TFIDF算法完成热点词汇抓取
hadoop基于MapReduce实现TFIDF算法完成热点词汇抓取首先了解TFIDF环境步骤开始首先了解TFIDFTF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Docu...
原创
2019-12-14 22:25:16 ·
2092 阅读 ·
1 评论