1.hadoop的不同文件格式是通过InputStream和outPutStream指定的,常见的文件格式有文本文件(用\n换行符作为记录标识)和sequenceFile,InputStream主要作用是如何从文件中划分记录,比如文本文件中通过换行符划分记录,OutputStream的主要作用是如何把记录写到文件中,比如文本文件中以换行符作为分隔符把记录写到文件中
2.序列化/反序列类–SerDe类的作用: 序列化的作用是如何把记录转成列,比如文本文件中把一行记录按照逗号或者tab分隔符把记录转化成列的集合,反序列化的作用是如何把列的集合转换成一条记录,比如文本文件把列集合按照逗号分隔成一行文本后写入文件中