MapReduce处理xml文件（使用旧API）

最新推荐文章于 2020-12-20 16:55:52 发布

eucalyptus_lin

最新推荐文章于 2020-12-20 16:55:52 发布

阅读量1.4k

点赞数

分类专栏：漫游Hadoop生态文章标签： hadoop xml解析 mapreduce

本文链接：https://blog.csdn.net/bloncar/article/details/68940957

版权

漫游Hadoop生态专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1）MapReduce项目引入jar包：hadoop-streaming-2.6.5.jar
2）main函数主要代码段：

JobConf jobconf = new JobConf(new Configuration(), MreMroParser.class);
jobconf.setJobName("xmlParser");
//这里标记使用流式输入
jobconf.set("stream.recordreader.class",StreamXmlRecordReader.class.getName());
//开始标记为<bulkPmMrDataFile>
jobconf.set("stream.recordreader.begin", "<bulkPmMrDataFile>");
//结束标记为</bulkPmMrDataFile>
jobconf.set("stream.recordreader.end", "</bulkPmMrDataFile>"); 
// 设置reduce的输出结果key和value用逗号分隔
jobconf.set("mapred.textoutputformat.ignoreseparator", "true");  
jobconf.set("mapred.textoutputformat.separator", ",");

jobconf.setMapperClass(xmlParserMapper.class);  
jobconf.setReducerClass(xmlParserReducer.class); 
// 设置inputFormat            
jobconf.setInputFormat(StreamInputFormat.class);  
jobconf.setOutputFormat(TextOutputFormat.class); 

jobconf.setOutputKeyClass(Text.class);  
jobconf.setOutputValueClass(Text.class);  

MultipleInputs.addInputPath(jobconf, new Path(args[0]), StreamInputFormat.class,MreMroParserMapper.class);  
FileOutputFormat.setOutputPath(jobconf, new Path(args[1])); 

JobClient.runJob(jobconf);

3）Map函数xmlParserMapper.class核心代码：

public class MreMroParserMapper  extends MapReduceBase implements Mapper<Text, Text, Text, Text> {

  @Override
  /*
   * Context实例用于输出内容的写入
   * (non-Javadoc)
   * @see org.apache.hadoop.mapreduce.Mapper#map(KEYIN, VALUEIN, org.apache.hadoop.mapreduce.Mapper.Context)
   */
  public void map(Text key, Text value, OutputCollector<Text, Text> output, Reporter reporter)
      throws IOException {
    String xmlContent= key.toString();
    System.out.println("'" + xmlContent+ "'");
/*自定义XML解析函数，将xmlContent送入*/
………………
我是使用dom4j：

Document document = DocumentHelper.parseText(xmlContent); 
Element elementRoot = document.getRootElement();
解析后返回多记录List resultDatas
………………
处理多记录输出：
for(int i=0;i<resultDatas.size();i++){
        String data = dataFormater.formatResultData(resultDatas.get(i));
        Text text = new Text();
        text.set(data);
        output.collect(new Text(resultDatas.get(i).getId()), text);
}

eucalyptus_lin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce处理xml文件（使用旧API）

1）MapReduce项目引入jar包：hadoop-streaming-2.6.5.jar 2）main函数主要代码段：JobConf jobconf = new JobConf(new Configuration(), MreMroParser.class);jobconf.setJobName("xmlParser");//这里标记使用流式输入jobconf.set("stream.r
复制链接

扫一扫