- 博客(1)
- 资源 (1)
- 收藏
- 关注
原创 hadoop基于MapReduce实现TFIDF算法完成热点词汇抓取
hadoop基于MapReduce实现TFIDF算法完成热点词汇抓取首先了解TFIDF环境步骤开始首先了解TFIDFTF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Docu...
2019-12-14 22:25:16 2092 1
web-Google.txt.gz
谷歌图谱数据集,适合spark进行图计算
# Directed graph (each unordered pair of nodes is saved once): web-Google.txt
# Webgraph from the Google programming contest, 2002
# Nodes: 875713 Edges: 5105039
# FromNodeId ToNodeId
2020-05-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人