关于MapReduce

1.所有数据都需要输出 的情况  , Reduce的个数设置为0
特定数据抽取对于Hadoop来说是非常简单的,对于所有数据都需要输出 的情况,直接在Map中将日志解析出的结果中需要的字段进行输出就可以 了。而对于只需要输出满足特定条件的数据,则需要在程序启动之时将这些条 中需要的数值或者某些变量等添加到Hadoop启动的任务参数的配置中,而在Map启动之前,在其Configure函数中解析出这些参数,并将这些参数存储在 全局变量中以便在Map中使用这些数值。在之后的Map操作中,只需要将满 足该要求的数据进行输出即可。这种操作可以不使用Reduce操作,直接让 Map输出最终结果即可,最简单的实现方法就是将Reduce的个数设置为0。 Hadoop就会将Map的输出作为最终的结果进行输出。
2.yarn运行程序是提示running in uber mode : false
-->Hadoop的小作业模式, 数据量小非常节约时间
3.python里,输入为csv文件的reduce输出不正确:
今天把一个列表转换成字符串输出的时候出现了UnicodeEncodeError: 'ascii' codec can't encode characters in position 32-34: ordinal not in range(128)问题,使用的是ulipad编译器。  
解决方法1: 在开头加上
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )  
解决方法2: 使用cmd运行python程序,能正常显示结果



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值