Hadoop之NLineInputFormat解析

Hadoop的NLineInputFormat不同于默认的TextInputFormat,它可以按指定行数进行分片,提高运行效率。例如,若数据文件有100行,Reducer数量为5,分片行数为20,则会创建5个Mapper处理每20行的数据。这种分片策略在特定场景下能优化任务执行。以下是实现案例的源代码简介。
摘要由CSDN通过智能技术生成

Hadoop默认实现的InputFormat是FileInputFormat<K,V>,在FileInputFormat下有如下五个子类:CombineFileInputFormat<K,V>、TextInputFormat<K,V>、KeyValueTextInputFormat<K,V>、NLineInputFormat<K,V>和 SequenceFileInputForma<K,V>t。其中TextInputFormat默认的实现是TextInputFormat<K,V>。该输入格式的分片方式为:输入文本的每一行作为一个分片,其中该行的偏移量作为Key,该行的内容为Value。而这篇文章介绍到的是是FileInputFormat的另外一种子类——NLineInputFormat。

NLineInputFormat是Hadoop的一种非默认初始化的一种输入格式。不同与InputFormat默认初始化的LineInputFormat,这种分片方式是可以一次性按照指定的分片数进行InputSplit。所以在特定情况下,可以有效提升代码的运行效率。例如:数据文件为每行一个浮点数,总共一百行;指定Reducer个数为5个,分片行数为20。则表明在InputSplit时,文本的每20行作为一个split;分别输入每个Mapper处理的分片内容。因为Hadoop中Mapper的个数与split有关,又因为NLineInputSplit的Mapper计算方法为:Mapper = Splits = 文件行数/分片行数。所以在上面的例子中,总共划分为5个Mapper。下面贴出实现上面案例的源代码。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值