hive
文章平均质量分 79
xuxu1116
中国科学院大学 硕博连读 主要研究方向多模态算法 aigc生成技术,也会分享一下工程问题,因为一个合格的算法工程就是要算法和工程两手抓
展开
-
hive优化总结
1.我们知道大数据场景下不害怕数据量大,害怕的是数据倾斜,怎样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键,数据量较大的情况下,慎用count(distinct),count(distinct)容易产生倾斜问题。2.设置合理的map reduce 的task数量map阶段优化mapred.min.split.size: 指的是数据的最小分割单元大小;min的默认值是1Bmapred.m...原创 2019-04-04 17:24:18 · 4302 阅读 · 1 评论 -
hive知识点总结
Hive学习也有一段时间了,今天来对Hive进行一个总结,谈谈自己的理解,作者还是个小白,有不对的地方请大家指出相互学习,共同进步。今天来谈一谈什么是Hive,产生背景,优势等一系列问题。什么是Hive先来谈谈自己的理解:有些人可能会说Hive不就是写SQL的吗,那我们其实可以从另一个角度来理解:Hive就是那么强大啊,只要写SQL就能解决问题,其实这些人说的也没错Hive确实就是写SQL的...原创 2019-04-04 17:27:09 · 462 阅读 · 1 评论 -
hive内置函数
1 Hive的内置函数在Hive中给我们内置了很多函数官方地址也可以在启动hive后输入命令查看函数:SHOW FUNCTIONS;DESCRIBE FUNCTION <function_name>;DESCRIBE FUNCTION EXTENDED <function_name>;123查看所有的内置函数hive> show functions;1...原创 2019-04-04 17:46:40 · 2072 阅读 · 0 评论 -
hive生产实践问题(一)在使用Hive Client跑job时,一直提示job被kill,
然后观察YARN的WebUI进行查看,如图:然后观察Hive Client的控制台输出,如下:Launching Job 1 out of 3Number of reduce tasks is set to 0 since there’s no reduce operatorStarting Job = job_1552895066408_0001, Tracking URL = htt...原创 2019-03-31 20:42:05 · 3894 阅读 · 1 评论