hive
文章平均质量分 62
醪糟小丸子
这个作者很懒,什么都没留下…
展开
-
hive调优总结
这样如果任务花费时间很短,又要多次启动JVM 的情况下,JVM 的启动时间会变成一个比较大的消耗,这个时候,就可以通过重用JVM 来解决.(这个功能的一个缺点就是会一 直占用task插槽不释放,以备重用,直到任务完成才释放。动态分区的模式,默认strict,表示必须指定至少一个分区为静态分区,nonstrict模式表示允许所有的分区字段都可以使用动态分区。1. distribute by的分区规则是根据分区字段的hash码与reduce的个数进行模除后,余数相同。是否开启动态分区功能,默认false关闭。原创 2023-01-04 17:39:23 · 497 阅读 · 1 评论 -
Hive 删除一个字段
如何删除hive表中的一个字段?原创 2022-09-17 17:06:39 · 10142 阅读 · 1 评论 -
原来rank() over()函数不止排序
我的逻辑就是先把所有tag='领域'和tag为人称和IP的记录分别挑出来,用uid去left join 就可以剔除拥有tag人称、IP、领域,tag='领域'的记录,只保留单纯拥有领域的记录,再和拥有人称领域的部分union。最近在做一个需求,其中有部分逻辑,秉着一切皆可left join 解决的方式写完了,直到我师兄说我这部分代码可以换个方式写的时候,我:哇,原来还可以这样处理。这个函数本身是用来分组排序的,在这里先给tag(文本)一个数字标识,再通过分组倒序排序就可以很容易的剔除不想要的记录了。...原创 2022-08-16 00:31:10 · 1498 阅读 · 0 评论 -
hive函数-日期函数汇总
1.unix时间戳转日期函数语法:from_unixtime(bigint unixtime[, string format])说明:转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式,返回值类型string举例:select from_unixtime(1645452469984,'yyyyMMdd');select from_unixtime(1645452469,'yyyy-MM-dd');2.获取当前时间戳原创 2022-02-21 23:31:47 · 4603 阅读 · 0 评论 -
hsql统计两天数据差异的算法及lag()/led()分析函数的使用
写一个数据监控的算法,听起来很厉害的样子,但实际上就是计算数据变化的差异,如果这个差异超过某个设定的阈值,那么就可以通过给数据维护人员发送预警,及时做出相应的调整。 最近在工作中,业务方提出了一个对数据监控预警的需求——如果每日的数据量差异超过某个设定的阈值,将会发送邮件通知我们,然后我们就要对数据进行分析,找出产生巨大差异的原因,进而做一定的调整。 我要完成的内容是: 即计算每个类别当天与前一天的差异 问题其实...原创 2021-06-24 19:57:06 · 1312 阅读 · 9 评论 -
ShuffleError:error in shuffle in fetcher解决办法
今天在跑一个hive任务的时候,遇到了这个错误,很明显这个错误是在shuffle阶段出现了问题,报错为java.lang.OutOfMemoryError:java heap space从网上找到了解决办法,这里记录一下:异常原因:很可能是因为数据倾斜导致的栈溢出。在shuffle阶段,会将map的output数据给取下来,然后根据设定的参数决定是放进内存中,还是存储到磁盘里面进行操作。而mapreduce.reduce.shuffle.memory.limit.percent这个参数默认值是0原创 2021-05-19 11:47:59 · 1346 阅读 · 0 评论 -
hive的函数
目录表生成函数集合函数条件控制函数分析函数级联报表查询窗口分析函数hive 自定义函数json解析函数表生成函数集合函数--集合函数select sort_array(array('y','z','q'));size(Map<K,V>)--返回一个值map_keys(Map<K,V>)--返回一个数组map_values(Map<K,V>)--返回一个数组条件控制函数--条件控制函数(case when)-原创 2020-12-24 10:38:50 · 217 阅读 · 0 评论 -
hive统计每日的活跃用户和新用户sql开发(附shell脚本)
假如有一个web系统,每天生成以下日志文件:2020年12月21日数据192.228.33.6,hunter,2020-12-21 10:30:20,/a192.228.33.7,hunter,2020-12-21 10:30:26,/b192.228.33.6,jack,2020-12-21 10:30:27,/a192.228.33.8,tom,2020-12-21 10:30:28,/b192.228.33.9,rose,2020-12-21 10:30:30,/b192.228.3原创 2020-12-23 21:36:36 · 2082 阅读 · 0 评论 -
hive查询的相关示例
hive基本查询--hive基本查询select * from a;select max(ip) from a;select count(*) from a;hive 条件查询--hive 条件查询select *from t_pv_logwhere access_time>'2020-11-26 15:31:33';关联查询1.内连接--1.内连接(笛卡尔积),右边字段依次和左边的连一遍select t_a.*,t_b.*from a t_a inner原创 2020-12-14 17:34:09 · 477 阅读 · 1 评论 -
快速上手Hive,安装到使用的流程介绍
hive(数据仓库):用来做数据(海量数据处理)统计、分析hive的功能解释web日志集群每天产生大量的log日志会被采集到HDFS文件系统上,文件内容都是一条条的记录,每条记录中包含很多字段,hive可以像mysql那样建表存储数据,不同的是hive可以把文件中每条记录的内容与表中的字段进行映射,并且hive有自己的mapreduce程序,可以用来统计计算。对于日志中内容的统计、分析,只需要在终端输入sql语句,hive会进行解析并组装一个MR job 提交到yarn上计算给出结果。使用.原创 2020-12-10 21:20:36 · 396 阅读 · 0 评论