spark输出自己想要的文件名称

在hadoop中输出文件名称的生产是由OutputFormat里面的generateFileNameForKeyValue方法生产的。知道这个之后,我们就可以写一个仔细需要的方法去继承父类重写文件生成的规则了;源码中是获取reduce的编码号生成part*的带有数字的文件名称;这里定制了一个用key作为输出文件名称,用这个是千万不能key是几千万上亿的不重复字符;这个只适合数量小,key也不多情况。

另外说下generateActualKey方法,这个方法是指明输出数据的过程中是否输出key,下面这个代码为不输出;同样也有一个输出value的方法;然后就可以用saveAsHadoopFile方法吧rdd输出了。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值