- 博客(2)
- 收藏
- 关注
转载 MR--二次排序
1.原始数据 [hadoop@h101 mr2]$ cat mm 1 10 1 3 2 2 9 8 8 11 8 1 2. import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.util.StringTokenizer; import org.apache.had...
2018-07-20 00:10:03 514
转载 倒排索引MR代码
"倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index) 1. [hadoop@hadoop110 ~]$ vi file1.txt mapreduce is...
2018-07-20 00:08:25 564
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人