Hive 常见问题(持续更新。。。)

最新推荐文章于 2019-12-30 14:37:33 发布

lalaguozhe

最新推荐文章于 2019-12-30 14:37:33 发布

阅读量4.5k

点赞数

分类专栏： Hive hadoop 文章标签： Hive hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lalaguozhe/article/details/9081971

版权

hadoop 同时被 2 个专栏收录

36 篇文章 0 订阅

订阅专栏

26 篇文章 0 订阅

订阅专栏

Q: 是否有像类似于phpmyadmin一样的hive查询客户端，能以界面的方式查询hive语句和导出数据

A: 有的，客户端的话可以使用squirrel来连接hive，squirrel是一个通用的数据库查询客户端，还有有一个开源项目phphiveadmin也不错，

web方式访问hive，我自己也写了一个hive web client(https://github.com/lalaguozhe/hiveweb-1)

Q: 执行语句时候，能否控制reducer的个数

A: 可以在执行hive语句之前先 set mapred.reduce.tasks=<number>

Q: 是否可能在输出的时候在结果第一行打印列名

A: 可以在执行hive语句之前先 set hive.cli.print.header=true;

Q: Hive是否支持跨数据库查询，比如database arch的table1和database algo的table2 进行join

A: 可以，只要有用户有这两张表的select权限即可，用户需要用“database.table”的方式来指定数据库下的表

Q: Hive是否有内置的函数，可以对输出的数据进行处理

A: Hive提供了丰富的内置函数，参见https://cwiki.apache.org/Hive/languagemanual-udf.html，

用户也可以自己实现自定义的UDF方法来满足更复杂的查询需求

Q: Hive支持exist in么？

A: 不支持，但是可以通过改写语句达到相同的效果，比如对于查询语句：

SELECT a.key, a.value FROM a WHERE a.key in (SELECT b.key FROM B);

可以改写成：

SELECT a.key, a.val

FROM a LEFT SEMI JOIN b on (a.key = b.key)

Q:Hive是否支持本地执行模式

A:Hive支持本地执行模式，当数据量小的时候，本地执行比提交到集群上执行效率提升很大

set hive.exec.mode.local.auto=true(默认false)

当一个job满足如下条件才能真正使用本地模式：

1.job的输入数据大小必须小于参数hive.exec.mode.local.auto.inputbytes.max(默认值128MB)

2.job的map处理的文件数大于参数hive.exec.mode.local.auto.input.files.max(默认值4)

3.job的reduce数必须为0或者1，不管是用户设置的还是系统推测出来的

用参数hive.mapred.local.mem(默认0)来设置local mode下mapper和reducer task jvm heap size

Q: 关键词UNION ALL的用法

A：The number and names of columns returned by each select_statement has to be the same. Otherwise, a schema error is thrown.

UNION ALL两边的字段名，和字段数都必须一致，可以用as xxx来统一字段名，并且目前UNION ALL只能作为子查询

本文链接http://blog.csdn.net/lalaguozhe/article/details/9081971，转载请注明

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
4
评论
Hive 常见问题(持续更新。。。)

Q: 是否有像类似于phpmyadmin一样的hive查询客户端，能以界面的方式查询hive语句和导出数据A: 有的，客户端的话可以使用squirrel来连接hive，squirrel是一个通用的数据库查询客户端，还有有一个开源项目phphiveadmin也不错，web方式访问hive，我自己也写了一个hive web client(https://github.com/lalag
复制链接

扫一扫

专栏目录

博客等级

码龄15年

41
原创

62
点赞

51
收藏

133
粉丝

关注

私信

热门文章

分类专栏

Hadoop 14篇
Hive 26篇
hadoop 36篇
mysql 1篇
hbase 2篇
算法
spark 3篇
shark 2篇
yarn 8篇
hdfs 1篇
linux 1篇

最新评论

hive参数hive.mapred.mode分析
想成为程序媛的张球球: 那如果设置成nonstrict这个参数会起什么调优作用么？？
MapReduce TotalOrderPartitioner 全局排序
隆华爱读书我不爱读书所以我没书读: 感谢博主，一直对默认的哈希partition和全序partition很困惑，总算这里找到了答案
HBase多线程建立HTable问题
猿来如此dj: 请教一下这参数到底什么意思hbase.htable.threads.max。和 ConnectionFactory.createConnection(conf,pool)中这个线程池个数
Hive Server 2 调研，安装和部署
51iwowo: 通过hive thrift server会偶尔出现table not found的问题，这种问题是由于连接失效导致的吗？
Hive小文件合并调研
huangning2: 这些配置在什么文件中

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。