大数据
zhangztSky
这个作者很懒,什么都没留下…
展开
-
flink-Java wordcount
public class WordCount { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStream...原创 2020-04-25 23:44:47 · 94 阅读 · 0 评论 -
记一次批量型数据倾斜的hive优化
问题概述 CREATE TABLE answer as select * from a left join b on a.model_id=b.model_id left join c on a.model_id=c.model_id; 其中表a四千万行,b,c仅仅百万行,但是这个结果的reduce阶段却跑了12个小时,原本2GB的数据,生成了2T数据,150亿行数据。这是为什么呢...原创 2020-03-29 21:24:30 · 136 阅读 · 0 评论 -
running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used---yarn 参数研究
mr报错 Container [pid=28920,containerID=container_1389136889967_0001_01_000121] is running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memo...原创 2020-03-29 20:57:23 · 1108 阅读 · 0 评论 -
hive join对应的mapreduce代码
只有理解了join 底层的mr代码如何实现,那你才能写出更好的sql,以及更好的优化。 加入有一下sql select * from tableA a inner join tableB b on a.model_id= b.model_id 要想深刻的理解这个sql你就得知道他的底层mr到底发生了什么,I will show you 首先我们来了解一下他的explain STAGE DE...原创 2020-03-25 00:26:40 · 289 阅读 · 0 评论 -
这可能是最专业的hive调优、hive参数调优
fetch 抓取 Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如: SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。 set hive.fetch.task.conversion=more; 本地模式 大多数的 Hadoop Job ...原创 2020-03-24 13:04:09 · 204 阅读 · 1 评论 -
mapreduce编程模型的方法论
这位作者写的非常好,从分布式方法论的角度阐述了mapreduce 在此留下一个链接mapreduce原创 2020-03-16 20:25:48 · 109 阅读 · 0 评论