Hadoop学习笔记———《MultipleOutputs———将结果输出到指定的多个文件或文件夹》

在MapReduce中使用MultipleOutputs将结果输出到指定的多个文件或文件夹

使用步骤主要有三步:

1、在reduce或map类中创建MultipleOutputs对象,将结果输出;

class TestReducer extends Reducer<Text, Text, Text, Text>{  
  
    //将结果输出到多个文件或多个文件夹  
    private MultipleOutputs mos;  

    protected void setup(Context context) throws IOException,InterruptedException {  
        mos = new MultipleOutputs<>(context);  // 初始化mos
     }  
          
      
    protected void cleanup(Context context) throws IOException,InterruptedException {  
        mos.close();  //关闭对象  
    }  
} 

 2、在map或reduce方法中使用MultipleOutputs对象输出数据,代替context.write();


protected void reduce(Text key, Iterable<Text> values, Context context)  
            throws IOException, InterruptedException {  
        .... // 计算key和value
        //使用MultipleOutputs对象输出数据  
        if(key.toString().equals("file1")){  
            mos.write("file1", key, value);  
        }else if(key.toString().equals("file2")){  
            mos.write("file2", key, value);    
        }
} 

 

 3、在创建job时,定义附加的输出文件(),这里的文件名称与第二步设置的文件名相同;

要注意的是hadoop是不承认未经注册namedOutput的,必须先在主函数中注册,然后才能写入,否则运行时会报not defined错误;所以要在主函数中用MultipleOutputs.addNamedOutput将对应的namedOutput文件注册一下。

//定义附加的输出文件  
 MultipleOutputs.addNamedOutput(job,"file1",TextOutputFormat.class,Text.class,Text.class);  
 MultipleOutputs.addNamedOutput(job,"file2",TextOutputFormat.class,Text.class,Text.class);

 


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
二手房统计分析是一个基于Hadoop的综合项目,旨在帮助人们深入了解二手房市场情况并进行相应的统计分析。 首先,我们需要收集大量的二手房交易数据。可以从不同的渠道收集数据,如网络房产平台、中介公司等。通过使用Hadoop的分布式文件系统(HDFS),可以将这些数据存储在集群中的多个节点上,以便后续的处理和分析。 然后,需要对收集到的数据进行清洗和预处理。这包括去除重复数据、处理缺失值和异常值等。通过使用Hadoop的MapReduce框架,可以将清洗和预处理任务并行化处理,以提高处理效率和准确性。 接下来,可以进行一些常见的统计分析。比如,可以计算不同城市二手房价格的平均值、中位数和标准差,以了解各个城市的房价水平和波动程度。同样地,还可以计算不同地区的交易量和均价,以找到二手房交易的热点区域。 此外,也可以进行数据可视化的工作,以方便人们更直观地理解二手房市场情况。通过使用Hadoop的数据处理工具和可视化库,如Hive和Tableau,可以将统计分析的结果以图表或地图的形式展示出来。 最后,还可以通过机器学习技术进行更深入的分析。比如,可以建立预测模型来预测二手房价格,或者进行聚类分析找到不同类型的二手房市场。通过使用Hadoop的机器学习库,如Spark MLlib,可以更高效地处理大规模的数据和模型训练。 总之,通过Hadoop的分布式计算和数据处理能力,二手房统计分析项目可以帮助人们更好地了解二手房市场情况,并提供相应的统计和预测分析,以支持人们做出更明智的决策。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值