hive
文章平均质量分 62
purisuit_knowledge
这个作者很懒,什么都没留下…
展开
-
hive中select排除某些列名
排除num列set hive.support.quoted.identifiers=none;select`(num)?+.+`from (select row_number() over (partition by uid order by pay_time asc) as num ,* from order) first_orderwhere num = 1;排除num和uid列set hive.support.quoted.identifiers=n...转载 2021-06-04 18:28:33 · 1950 阅读 · 0 评论 -
真正让你明白Hive参数调优系列1:控制map个数与性能调优参数
转载自;https://blog.csdn.net/qq_26442553/article/details/99438121本系列几章系统地介绍了开发中Hive常见的用户配置属性(有时称为参数,变量或选项),并说明了哪些版本引入了哪些属性,常见有哪些属性的使用,哪些属性可以进行Hive调优,以及如何使用的问题。以及日常Hive开发中如何进行性能调优。1.Hive有哪些参数,如何查看这些参数Hive自带的配置属性列表封装在HiveConfJava类中,因此请参阅该HiveConf.java文件以获转载 2020-09-22 16:41:02 · 513 阅读 · 0 评论 -
Hive设置map和reduce的个数
一、控制hive任务中的map数: 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改); 举例: a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数。 b) 假设in...转载 2020-08-11 10:19:58 · 1106 阅读 · 0 评论 -
经典:计算第几日留存
需求一:计算新增用户的第1,2,3,4,5,6,7,14,30留存下面一个语句搞定:select datestr,project,owner,country,appvsn,mname,count(1) from (select project,substr(status['firstVisit'].value,0,8) datestr,date_diff(substr(s...原创 2019-11-04 14:29:28 · 247 阅读 · 0 评论 -
Hive sql exlain读取详解
参考:https://www.cnblogs.com/NightPxy/p/9230253.html1.hive 语句执行顺序from... where.... select...group by... having ... order by...执行计划Map Operator Tree:TableScan alias: 表名 -- 相当于 fr...转载 2019-07-04 20:21:45 · 400 阅读 · 0 评论 -
hive set 常用参数汇总
转载自:https://www.cnblogs.com/Allen-rg/p/10769924.htmlhttps://www.cnblogs.com/sandbank/p/6408762.html1、 set hive.auto.convert.join = true;mapJoin的主要意思就是,当链接的两个表是一个比较小的表和一个特别大的表的时候,我们把比较小的tabl...转载 2019-06-10 17:51:08 · 7184 阅读 · 0 评论 -
Hive之COUNT DISTINCT优化
问题描述COUNT(DISTINCT xxx)在hive中很容易造成数据倾斜。针对这一情况,网上已有很多优化方法,这里不再赘述。但有时,“数据倾斜”又几乎是必然的。我们来举个例子:假设表detail_sdk_session中记录了访问某网站M的客户端会话信息,即:如果用户A打开app客户端,则会产生一条会话信息记录在该表中,该表的粒度为“一次”会话,其中每次会话都记录了用户的唯一标示u...转载 2019-06-06 19:15:44 · 459 阅读 · 0 评论 -
hive的高级查询详解(group by、 order by、 join 、 distribute by、sort by、 clusrer by、 union all)
查询操作group by、 order by、 join 、 distribute by、sort by、 clusrer by、 union all底层的实现mapreduce常见的聚合操作count计数count(*) 所有值不全为NULL时,加1操作count(1) 不管有没有值,只要有这条记录,值就加1count(col) col列里面的值为...转载 2019-03-28 15:14:44 · 573 阅读 · 0 评论 -
Hive的Transform功能以及Transform的坑
转载自:https://www.tuicool.com/articles/fuimmmQHive的 TRANSFORM 关键字提供了在SQL中调用自写脚本的功能,适合实现Hive中没有的功能又不想写UDF的情况。例如,按日期统计每天出现的 uid 数,通常用如下的SQLSELECT date, count(uid)FROM xxxGROUP BY date但是,如果我想在redu...转载 2018-08-10 16:13:15 · 5339 阅读 · 1 评论 -
Hive 自定义函数 UDF UDAF UDTF
转载自:https://www.cnblogs.com/mzzcy/p/7119423.html1、UDF:用户定义(普通)函数,只对单行数值产生作用;继承UDF类,添加方法 evaluate() /** * @function 自定义UDF统计最小值 * @author John * */ public class Min ...转载 2018-07-27 18:29:34 · 301 阅读 · 0 评论 -
json格式的数据导入到hive表中
总体来说,有两大类方法: 1、将json以字符串的方式整个入Hive表,然后使用LATERAL VIEW json_tuple的方法,获取所需要的列名。 2、将json拆成各个字段,入Hive表。这将需要使用第三方的SerDe。第一种方法的的缺点是不能处理复杂类型(如果hive表中字段为array,map等)。实战:1. 创建表[sql] view原创 2017-09-05 15:45:41 · 16231 阅读 · 1 评论 -
Hive安装及遇到的问题
首先明白hive只在一个节点上安装就可以然后安装hive必须在安装有hadoop的基础上才可以运行准备工作:1)hive安装包下载apache-hive-1.2.1-bin.tar.gz2)mysql安装包下载MySQL-server-5.5.51-1.linux2.6.i386.rpm(服务端),MySQL-client-5.5.51-1.linux2.6.i386.rpm(客户原创 2016-08-11 17:34:52 · 505 阅读 · 0 评论 -
Hive中小表与大表关联(join)的性能分析
转载自:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。多小的表算小表?如果转载 2016-08-05 16:23:17 · 644 阅读 · 0 评论 -
Hive总结
Hive常用函数:http://blog.csdn.net/wisgood/article/details/17376393原创 2014-10-28 18:05:35 · 731 阅读 · 0 评论 -
在CDH中遇到的奇葩问题
问题:在HIVE中新增一些表,在hive中可以正常操作,但在impala中却查询不到表。答:当在hive中新增表后,需要在impala中执行invalidate metadata 库名.表名待续中······原创 2015-11-30 17:49:41 · 479 阅读 · 0 评论 -
HIVE分析函数
hive支持的分析函数:总的概括:http://www.07net01.com/linux/HIVE_chuangkoujifenxihanshu_yingyongchangjing_532180_1373989446.html**********************************************************************************原创 2015-04-02 19:38:26 · 725 阅读 · 0 评论