![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 91
hive相关知识总结
For_dongyang
大数据开发
展开
-
Yarn容量调度器并发度问题,解决一直卡在Running job
一、问题描述Yarn默认调度器为CapacityScheduler(容量调度器),且默认只有一个队列——default。如果队列中执行第一个任务资源不够,就不会再执行第二个任务,一直等到第一个任务执行完毕。(1)创建一张测试表create table student(id int, name string);(2)启动1个hive客户端,执行以下插入数据的sql语句insert into table student values(1,'abc');执行该语句,hive会初始化..原创 2021-03-04 13:13:03 · 3309 阅读 · 1 评论 -
Hive SQL迁移Spark SQL在滴滴的实践
桔妹导读:在滴滴SQL任务从Hive迁移到Spark后,Spark SQL任务占比提升至85%,任务运行时间节省40%,运行任务需要的计算资源节省21%,内存资源节省49%。在迁移过程中我们沉淀出一套迁移流程, 并且发现并解决了两个引擎在语法,UDF,性能和功能方面的差异。1.迁移背景 Spark自从2010年面世,到2020年已经经过十年的发展,现在已经发展为大数据批计算的首选引擎,在滴滴Spark是在2015年便开始落地使用,不过主要使用的场景是更多在数据挖掘和机器学习方向...转载 2021-01-29 21:17:19 · 250 阅读 · 0 评论 -
Hive之窗口函数(一文搞懂)
1.相关函数说明OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化。重点解释下OVER()函数,OVER()函数中包括三个函数:包括分区partition by 列名、排序order by 列名、指定窗口范围rows between开始位置and结束位置。我们在使用over()窗口函数时,over()函数中的这三个函数可组合使用也可以不使用。over()函数中如果不使用这三个函数,窗口大小是针对查询产生的所有数据,如果指定了分区,窗口大小是针对每个分区的数据原创 2021-01-28 17:49:56 · 5761 阅读 · 0 评论