hive
文章平均质量分 70
java43135
这个作者很懒,什么都没留下…
展开
-
使用Hive的注意点
1.字符集 Hadoop和Hive都是用UTF-8编码的,所以, 所有中文必须是UTF-8编码, 才能正常使用。 备注:中文数据load到表里面, 如果字符集不同,很有可能全是乱码需要做转码的, 但是hive本身没有函数来做这个 2.压缩 hive.exec.compress.output 这个参数, 默认是 false,但是很多时候貌似要单独显式设置一遍否则会对结果做原创 2012-12-11 15:30:01 · 1227 阅读 · 0 评论 -
Hive中Mapjoin的使用
顾名思义 MapJoin是在Map端完成Join操作,需要将Join操作中的小表读入到内存,在Map阶段拿另外一个表一个表的数据和内存中表数据做匹配,这种情况下即使笛卡尔积也不会对任务运行速度造成太大的效率影响。 应用1:共同点: 1、有个较小的表( 2、需要做不等值join操作(a.x 而且hive的where条件本身就是在map阶段进行的操作,所以在where里写入不等值原创 2012-12-12 13:10:53 · 1260 阅读 · 0 评论