HIVE 的Driver类在处理字符串时,是按照UTF-8来处理,但是HIVE的JDBC确没有强制按照UTF-8来处理,所以会发生中文字符无论是UTF8还是GB2312都会在JDBC查询时,都不能正确输出。
在Linux下Java的FileWriter默认是UTF8来写文件的,所以通过HIVE导入到HADOOP后,也是UTF-8的格式,如果依照之前(http://blog.csdn.net/cfy_yinwenhao/article/details/6977882)处理方式下,让JDBC的HIVEQueryDataSet以UTF-8来处理字符集,获取的数据是正确的。
但是这个方式下,UTF-8占用的空间比Latin1要大,Java的FileWriter写UTF-8文件,一个英文字符要占用2个字符的空间,太浪费了。。。尤其在HADOOP平台,本来就是处理大数据量的情况下,这么浪费的存储,真是不可取啊。
只能分析hive的源码了,看看能不能解决这个问题吧。。。