![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
zhangztSky
这个作者很懒,什么都没留下…
展开
-
orc paquet 行式存储和列式存储
原创 2020-04-03 18:01:00 · 396 阅读 · 0 评论 -
记一次批量型数据倾斜的hive优化
问题概述CREATE TABLE answer as select * from a left join b on a.model_id=b.model_id left join c on a.model_id=c.model_id;其中表a四千万行,b,c仅仅百万行,但是这个结果的reduce阶段却跑了12个小时,原本2GB的数据,生成了2T数据,150亿行数据。这是为什么呢...原创 2020-03-29 21:24:30 · 139 阅读 · 0 评论 -
running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used---yarn 参数研究
mr报错Container [pid=28920,containerID=container_1389136889967_0001_01_000121] is running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memo...原创 2020-03-29 20:57:23 · 1121 阅读 · 0 评论 -
hive join对应的mapreduce代码
只有理解了join 底层的mr代码如何实现,那你才能写出更好的sql,以及更好的优化。加入有一下sqlselect * from tableA a inner join tableB b on a.model_id= b.model_id要想深刻的理解这个sql你就得知道他的底层mr到底发生了什么,I will show you首先我们来了解一下他的explainSTAGE DE...原创 2020-03-25 00:26:40 · 299 阅读 · 0 评论 -
这可能是最专业的hive调优、hive参数调优
fetch 抓取Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。 set hive.fetch.task.conversion=more;本地模式大多数的 Hadoop Job ...原创 2020-03-24 13:04:09 · 207 阅读 · 1 评论 -
Could not open client transport with JDBC Uri hive jdbc connection refused
2020/03/23 15:08:42-[INFO]-[org.apache.hive.jdbc.Utils.parseURL(Utils.java:285)]-Supplied authorities: 172.18.6.1:100002020/03/23 15:08:42-[INFO]-[org.apache.hive.jdbc.Utils.parseURL(Utils.java:372)]...原创 2020-03-23 15:17:10 · 1221 阅读 · 0 评论