Hadoop_3: Hadoop I/O

数据的完整性

  • HDFS对写入数据计算校验和,并在读取数据的时候验证校验和
  • 本地文件系统的数据完整性:在创建a文件的同时,在同一个文件下创建.a.crc校验
  • I/O校验:datanode

压缩

  • codec:实现压缩解压算法
// 使用压缩

JobConf conf=new Jobconf();
conf.setBoolean("mapred.output.compress",true)

输入切片

  • 压缩格式支持切分
  • 支持切分的压缩bzip2

序列化

  • 多节点的远程通信=RPC=远程结点将序列消息转换为二进制流后发送到远程节点

writable接口

  • 将其状态写到DataOutput二进制流;从DataInput读取状态

writable类

  • set()和get()函数读取或设置封装的值
  • 基本类型
 BooleanWritable   1(序列化字节)
 ByteWritable      1(序列化字节)
 IntWritable       4(序列化字节)
 FloatWritable     4(序列化字节)
 LongWritable      8(序列化字节)
 DoubleWritable    8(序列化字节)

Text类型-----UTF-8序列的Writable类
ObjectWritable 是对java基本类型的一个通用的封装,在Hadoop RPC中用于对方法的参数和返回类型进行封装

Writable的集合类

ArrayWritable:  数组
TwoDArrayWritable:二维数组
MapWritable:<key,value>
SortedMapWritable:排序的<key,value>


基于文件的数据结构

SequenceFile

  • 记录key/value列表,序列化后的二进制文件
  • 包装小文件

MapFile: 已经排序的 SequenceFile

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值