索引的mapreduce实现

最新推荐文章于 2022-05-09 00:28:47 发布

杯底囚人

最新推荐文章于 2022-05-09 00:28:47 发布

阅读量816

点赞数

分类专栏： hadoop 文章标签： mapreduce hadoop 索引传智播客

本文链接：https://blog.csdn.net/beidiqiuren/article/details/51198820

版权

本文介绍了使用MapReduce在Hadoop上实现文件索引的步骤。首先，输出结果以文件为单位建立单词索引，然后通过进一步匹配优化结果，最终目标是创建特定的索引格式。内容包括学习笔记和相关代码展示。

摘要由CSDN通过智能技术生成

本文为传智播客hadoop八天——第四天的学习笔记

目的：将不同文件中单词以文件为单位建立索引。

第一步：输出结果为

hello-->a.txt    3//单词-->文件名
hello-->b.txt    2
hello-->c.txt    4
jerry-->a.txt    1
jerry-->b.txt    1
jerry-->c.txt    2
tom-->a.txt    2
tom-->b.txt    1
tom-->c.txt    2

以下为代码部分

package cn.ii;

import java.io.IOException;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
imp