数据的完整性
- HDFS对写入数据计算校验和,并在读取数据的时候验证校验和
- 本地文件系统的数据完整性:在创建a文件的同时,在同一个文件下创建.a.crc校验
- I/O校验:datanode
压缩
JobConf conf=new Jobconf();
conf.setBoolean("mapred.output.compress",true)
输入切片
序列化
- 多节点的远程通信=RPC=远程结点将序列消息转换为二进制流后发送到远程节点
writable接口
- 将其状态写到DataOutput二进制流;从DataInput读取状态
writable类
- set()和get()函数读取或设置封装的值
- 基本类型
BooleanWritable 1(序列化字节)
ByteWritable 1(序列化字节)
IntWritable 4(序列化字节)
FloatWritable 4(序列化字节)
LongWritable 8(序列化字节)
DoubleWritable 8(序列化字节)
Text类型
ObjectWritable 是对java基本类型的一个通用的封装,在Hadoop RPC中用于对方法的参数和返回类型进行封装
Writable的集合类
ArrayWritable: 数组
TwoDArrayWritable:二维数组
MapWritable:<key,value>
SortedMapWritable:排序的<key,value>
基于文件的数据结构
SequenceFile
- 记录key/value列表,序列化后的二进制文件
- 包装小文件
MapFile: 已经排序的 SequenceFile