Hive & Spark SQL
BingCorePower
新目标 新起点 逐一击破。
展开
-
Hive基础编程入门(一)
设置查询时显示字段名称hive> set hive.cli.print.header=true;设置cli模式下显示当前所在的数据库名称hive> set hive.cli.print.current.db=true;设置hive的安全措施为"strict(严格)"模式(如果对分区表查询的WHERE子句中没有加分区过滤的话,将禁止提交这个任务)hive> set hive.mapre原创 2017-07-31 21:08:50 · 3835 阅读 · 0 评论 -
HiveQL逻辑执行顺序
FROM->WHERE->GROUP BY->HAVING->SELECT->ORDER BYHive总是按照从左到右的顺序执行的,如a、b、c三个表关联select a.id,b.colname,c.colname from a join b on a.id = b.id join c on a.id = c.id大多数情况下,hive会对每个join连接对象启动一个MapReduce任原创 2017-08-16 23:40:20 · 3628 阅读 · 0 评论 -
Hive参数配置调优
hive通过将查询划分成一个或多个MapReduce任务达到并行处理的目的。每个任务都可能具有多个mapper和reducer任务,其中至少有一些是可以并行执行的。确定最佳的mapper个数和reducer个数取决于多个变量,例如输入的数据量大小以及对这些数据执行的操作类型等。保持平衡性是很有必要的,对于Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜,每个原创 2017-09-07 00:16:54 · 1415 阅读 · 1 评论