Hadoop序列化文件SequenceFile主要用于解决大量小文件问题,SequenceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将<key,value>对序列化到文件中,一般对小文件可以使用这种文件合并,即将文件名作为key,文件内容作为value序列化到大文件中。
理解点:
1、二进制数据格式,在hadoop上进行mr任务时使用,一般是中间过程mr的输入输出数据
2、有一定的格式:头部+内容。头部标示SEQ
3、可通过read读取,
${JAVA_HOME}/bin/java -cp ${HADOOP_LIB}/hadoop-2-core.jar:${HADOOP_LIB}/commons-logging-1.0.4.jar:${bin} sequencefile.SequenceFileReader $fileName
4、读写会用到用到c