hadoop IO(一)

最新推荐文章于 2023-04-13 10:36:37 发布

lykke2012

最新推荐文章于 2023-04-13 10:36:37 发布

阅读量69

点赞数

分类专栏： hadoop 文章标签： Hadoop

hadoop 专栏收录该内容

47 篇文章 0 订阅

订阅专栏

1.数据完整性：

在数据第一次引入时系统计算校验和(checksum),在数据通过一段不可靠的通道进行传输时再次计算校验和，如果所得的校验和

和原来的校验和一致则代表数据完整

2.HDFS数据完整性

hdfs 对写入的数据计算校验和，在读取数据时验证校验和。

io.bytes.per.checksum 指定校验和的数据字节大小默认512字节

datanode验证收到的数据后存储数据及校验和，datanode管线最后一个datanode负责验证校验和，如果检测到错误，则客户端便会收到一个ChecksumException 异常。客户端读取数据时也会验证校验和，datanode也会在一个后台线程中运行一个

DataBlockScanner,c从而定期验证存储在这个dananode上所有的数据块。

禁用校验和
将false 值传递给FileSystem对象的setVerifyCcheckSum()方法，可禁用校验和。

LocalFileSystem 执行客户端的校验和验证,通过ChecksumFileSystem 完成任务。ChecksumFileSystem 继承FileSystem类

FileSystem fs = ……

FileSystem checksumFiles = new ChecksumFileSystem(fs)
RawLocalFileSystem 禁用校验和

3.压缩

压缩两大好处：减少存储所需的磁盘空间，加速在网络上和磁盘上的传输

hadoop 压缩工具
Gzip 通用压缩工具，时间和空间性能居中
bzip2 比Gzip 高效，速度慢
LZO 速度快效率低

codec 压缩解压缩算法
hadoop 对 CompressionCodec 接口的一个实现代表一个codec

CompressionCodec 包含两个函数来压缩和解压缩
1> createOutputStream()
2> createInputStream

通过CompressionCodecFactory 推断CompressionCodec

读取压缩文件时通过文件的扩展名来判断需要使用哪个codec
getCodec()来读取

CodecPool 允许反复使用压缩和解压缩算法，分摊创建这些对象所使用的开销

4.MapReduce 压缩

要想对MapReduce 作业进行输出压缩操作可配置：
mapred.output.compress 设置为true
mapred.output.compression.codec 设置为想要使用的压缩codec 名
mapred.output.compression.type 控制要使用哪种压缩格式默认为RECODE 每条压缩 BLOCK 按组压缩(效率高)

Map 任务压缩

map 阶段的中间输入进行压缩
mapred.compression.map.output
mapred.map.output.compression.codec Class

5.序列化

将结构化数据转化为字节流成为序列化

hadoop多个节点上的通信是通过rpc(远程过程调用) 实现的，RPC将消息序列化成二进制流后发送到远程节点，远程节点接着将

二进制流反序列化为原始消息

hadoop 自己的序列化格式为 writable

Writable 接口两个方法：

write()
readFields()

IntWritable 实现了 WritableCompareable 接口，该接口继承自 Writable 和 java.lang.Comparable接口

RawComparator 接口允许直接比较数据流中的记录，无需反序列化

Text 针对UTF8 序列的 Writable

lykke2012

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop IO(一)

1.数据完整性：在数据第一次引入时系统计算校验和(checksum),在数据通过一段不可靠的通道进行传输时再次计算校验和，如果所得的校验和和原来的校验和一致则代表数据完整2.HDFS数据完整性 hdfs 对写入的数据计算校验和，在读取数据时验证校验和。 io.bytes.per.checksum 指定校验和的数据字节大小默认512字节 datanode验证收到的数据...
复制链接

扫一扫

专栏目录