大数据hadoop入门案例2--对手机号码序列化+切片+分区

大数据hadoop入门案例–序列化+分区+排序
此博客作为本文学习hadoop大数据内容,内容可能存在不够全面或者存在偏差。

1.定义

1.序列化:将内存中的对象转化为字节序列以便存储到磁盘和网络传输。

2.反序列化:将收到的字节序列或磁盘的持久化数据转换为内存中的对象。

3.切片:在逻辑上将数据分片,并没有在磁盘上切分。一个切片对应一个MapTask,有多少切片就执行多少个MapTask,类似于分布式处理数据,提升数据处理速度。一般切片大小等于blocksize。

  1. FileInputFormat切片机制:按照文件的内容长度进行切片,切片大小默认等于Block大小,切片时不考虑数据整体针对每一个文件单独切片。
  2. TextInputFormat:按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量, LongWritable 类型。值是这行的内容,不包括任何行终止符(换行符和回车符),Text 类型。
  3. CombineTextInputFormat:用于小文件过多场景。当剩余数据大小超过设置的最大值且不大于最大值 2 倍,此时将文件均分成 2 个虚拟存储块

4.分区:要求将统计结果按照条件输出到不同文件中(分区)。调用几个ReduceTask输出几个不同的文件中。

2.代码

<
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值