最近这段时间继续了解和消化hadoop相关知识点(源码),那么关于hadoop的IO大致总结几个内容,然后一个个了解相关源码处理。
第一:数据检查CRC-32循环冗余校验
在三种情况下进行校验:datanode接收数据后,存储数据前;客户端读取datanode上的数据时;datanode后台守护进程的定期检测
第二:数据压缩(Gzip、bzip2和LZO),分割的处理
第三:序列化处理机制
第四:MapReduce的文件类 SequenceFile MapFile
最近这段时间继续了解和消化hadoop相关知识点(源码),那么关于hadoop的IO大致总结几个内容,然后一个个了解相关源码处理。
第一:数据检查CRC-32循环冗余校验
在三种情况下进行校验:datanode接收数据后,存储数据前;客户端读取datanode上的数据时;datanode后台守护进程的定期检测
第二:数据压缩(Gzip、bzip2和LZO),分割的处理
第三:序列化处理机制
第四:MapReduce的文件类 SequenceFile MapFile