hive
文章平均质量分 65
Java_Soldier
384930333@qq.com
展开
-
hive安装配置详解
本文主要是在Hadoop单机模式中演示Hive默认(嵌入式derby 模式)安装配置过程,目录结构如下:基础环境Hive安装配置启动及演示[一]、基础环境Mac OSX 10.9.1Java 1.6+ Hadoop 2.2.0 (单机模式安装配置详见:http://www.micmiu.com/opensource/hadoop/hadoop2x-sin原创 2017-12-30 15:48:56 · 2545 阅读 · 0 评论 -
hive MapJoin优化
1、Hive本地MR 如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。但是hive本地MR对内存使用很敏感,查询的数据不能太大,否则本地内存是吃不消的。So the query processor will launch this task in a child jvm, which has the same heap size as the Map原创 2017-12-30 15:50:07 · 2509 阅读 · 0 评论 -
hive配置详解
hive的配置:hive.ddl.output.format:hive的ddl语句的输出格式,默认是text,纯文本,还有json格式,这个是0.90以后才出的新配置;hive.exec.script.wrapper:hive调用脚本时的包装器,默认是null,如果设置为python的话,那么在做脚本调用操作时语句会变为python ,null的话就是直接执行;hive.exec.pl原创 2017-12-30 15:51:10 · 2399 阅读 · 0 评论 -
hive与hbase的区别
共同点:1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别:2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。3.想象你在操作RMDB数据库,如果是全表扫描,就用Hive+Hadoop,如果是索引访问,就用HBase+Hadoop 。4原创 2018-04-16 10:21:36 · 4138 阅读 · 0 评论 -
row_number()函数
row_number() over(partition by col1 order by col2 desc) rank按照col1分组,col2字段组内排序语法:row_number() over (partition by 字段a order by 计算项b desc ) rank --这里rank是别名partition by:类似hive的建表,分区的意思;原创 2018-04-27 15:19:24 · 2802 阅读 · 0 评论 -
hive sql注意事项
如果是按时间分区的表,查询时一定要使用分区限制,如果没有分区限制,会从该表的所有数据里面遍历。注意sql中or的使用,or 这个逻辑必须单独括起来,否则可能引起无分区限制,下面举个例子,想查询到的是gd或gx的某天的数据。 Select x from t where ds=d1 and province=’gd’ or province=’gx’ 该语句会从所有的分区里面查询!也没有得到自...原创 2018-08-04 14:37:19 · 719 阅读 · 0 评论