hadoop
糯米多排骨
这个作者很懒,什么都没留下…
展开
-
hive索引浅析
整理两年前草稿 hive索引通过减少过滤操作所需要的列数,增加查询效率。 hive的索引其实是一张表,表的记录结构为:col1,col2...-key,其中key对应file-name+offset(row或block的firstrow),注意区别B树索引,hive的索引不需要排序,不支持rangeScan,支持索引键满足的聚集。 索引条件: 只支持单表索引,不支持多表链接索引原创 2013-08-07 14:50:03 · 1314 阅读 · 0 评论 -
hive权限设置 部分翻译
整理2年前的草稿 目前版本中的hive权限管理主要是防止用户的误操作,并不能防止用户的非法访问与恶意破坏。 修改配置文件如下: hive.security.authorization.enabled true enable or disable the hive client authorization hive.security.authorizati翻译 2013-08-07 14:47:27 · 1023 阅读 · 1 评论 -
hive join优化
整理两年前草稿 MapJoin在使用合理的情况下性能优于普通Join,可以通过显式的优化器提示让执行计划采用mapjoin,这在大部分hive的优化文章中都有介绍,这里想说的是可以通过配置hive的参数,在join中存在小表时优化器自动采用mapjoin完成连接操作,设置参数如下: hive.auto.convert.join = true hive.smalltable.filesize原创 2013-08-07 14:51:53 · 1308 阅读 · 0 评论 -
搭建hive调试环境
整理两年前的草稿 通过以下步骤在IDE上搭建Hive的编译、调试环境,从而深入学习hive: 这里使用NetBeans编译并调试Hive(0.7.1) 1. 新建Java应用程序项目 2. 导入需要调试的源包 3. 在库中添加hive目录lib下的所有jar、Hadoop项目依赖(无hadoop调试需求的也可以直接导入hadoop的core)、mysql库(如果跟我一样,原创 2013-08-07 14:41:41 · 981 阅读 · 0 评论