HIVE与GB2312字符集

    HIVE 的Driver类在处理字符串时,是按照UTF-8来处理,但是HIVE的JDBC确没有强制按照UTF-8来处理,所以会发生中文字符无论是UTF8还是GB2312都会在JDBC查询时,都不能正确输出。

   在Linux下Java的FileWriter默认是UTF8来写文件的,所以通过HIVE导入到HADOOP后,也是UTF-8的格式,如果依照之前(http://blog.csdn.net/cfy_yinwenhao/article/details/6977882)处理方式下,让JDBC的HIVEQueryDataSet以UTF-8来处理字符集,获取的数据是正确的。

 

但是这个方式下,UTF-8占用的空间比Latin1要大,Java的FileWriter写UTF-8文件,一个英文字符要占用2个字符的空间,太浪费了。。。尤其在HADOOP平台,本来就是处理大数据量的情况下,这么浪费的存储,真是不可取啊。

 

只能分析hive的源码了,看看能不能解决这个问题吧。。。 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值