SRC
有一部分文件,编码格式是utf-8,导入到了hive表。
hive和hdfs通过命令行查都不乱码,通过hue查表和文件就乱码,hue的编码格式已经设为utf-8了,文件和表也都是utf-8。不是所有的文件都这样,只有一部分文件乱。
从hdfs命令行直接下载文件,打开发现是乱码,说明hue是正常的,有问题的是cdh、hive、hdfs
linux上不乱码的文件,windows乱码,应该是这个文件本身的问题。insert into 生成的文件可能会有问题,只能由linux系统内的组件识别中文,linux系统外比如windows就不识别。
EDIP叫定长双文件,是用来进行数据迁移的格式。一个表被转换为2个文件,1个flag用来存储表结构。1个压缩的dat.gz用来存储表数据,解压后是个dat文件。
flg文件格式如下:
编解码
想要转换1个文件的编码,必须知道原来的编码。