离线计算
cristim33
这个作者很懒,什么都没留下…
展开
-
hive 元数据的一点问题
hive升级到了0.9,发现以前用的查看建表语句的脚本不能用了,研究了下,有个元数据表在0.7版本叫COLUMNS,目前用的0.9版本变成COLUMN_V2, 并且表结构也变了,之前查询字段体的语句这样: SELECT concat(' ',C.COLUMN_NAME,' ',C.TYPE_NAME,(case when C.COMMENT is not null then conca原创 2014-05-23 17:04:17 · 747 阅读 · 0 评论 -
hive使用心得和常见问题
1、hive属于java体系,数据编码是unicode,所以从生产库抽过来的GB18030极其子编码集的数据,load到hive是可能出现乱码的。幸好有mapreduce的存在,我们可以写一个数据清洗程序,不仅可以完成转码功能,还可以格式化为hive可用的数据,比如行分隔符,列分隔符的替换,记录字段个数的检查等。 文件小的话也可以使用命令:iconv -f GBK -t UTF8 cui.dat原创 2012-03-02 15:08:04 · 2020 阅读 · 0 评论