大数据
文章平均质量分 80
triplebee
人狠话不多
展开
-
文件倒排索引算法及其hadoop实现
本文将以hadoop实现倒排索引什么是文件的倒排索引?简单讲就是一种搜索引擎的算法。过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词”和对应出现的“倒排文件”。原创 2017-02-23 10:49:48 · 4019 阅读 · 1 评论 -
基于hadoop的社交网络三角形计数
图的三角形计数问题是一个基本的图计算问题,是很多复杂网络分析(比如社交网络分析) 的基础。目前图的三角形计数问题已经成为了 Spark 系统中 GraphX 图计算库所提供的一个算法级 API。本次实验任务就是要在 Hadoop 系统上实现 Twitter 社交网络图的三角形计数任务。原创 2017-02-23 21:42:32 · 4819 阅读 · 4 评论