2020年05月_master-dragon

12月 11月 10月 09月 08月 07月 05月 04月 03月 02月 01月

原创【线上】jvm OOM（原因：对象实例过多）

jmap dump下来分析是一个对象实例过多，且该对象包含大json，因为是偶发，所以很诡异。最后排查原因定时任务拉取操作记录对象，拉取设置的时间范围过大为什么时间范围过大使用了一个当前时间和上一次定时任务运行时间用了本地变量去存储上一次时间，然后定时任务执行完去更新上一次时间变量一个实例倒是没什么大问题，多实例且任务是单实例运行了。那么，要是1个实例今天跑了一次定时任务，然后一直都是其它实例在跑定时任务；那么突然定时任务选中个这个实例，那么时间范围就是【1天前，now】，本来比如说1

2020-05-26 23:43:37 820 1

原创 hadoop yarn

目录hadoop 1.0 JobTrackeryarn类比图理解架构hadoop 1.0 JobTrackerhadoop 1.0，图书《Hadoop技术内幕：深入理解MapReduce架构设计与实现原理》缺点：JobTracker 存在单点故障，扩容有限TaskTracker端，以Map/Reduce task的数目作为资源的表示过于简单，没有考虑CPU，内存（即真正的计算资源只能运行MapReduce；TaskTracker端, 把资源强制划分为了Map task slot 和 Redu

2020-05-14 10:01:44 412

转载 druid.io 精确去重【转载】

转自，作者https://mp.weixin.qq.com/s/jDW1sordtki-O5-tsVE94gBitMap一个int(32bit),无符号数的范围是：[0, 4294967295] (42亿多，即2^32 - 1), 这样需要存储： 4B * 4294967295 =

2020-05-10 23:52:22 613

原创 hadoop mapreduce有哪些地方使用了排序？

前言如题：hadoop mapreduce 整个过程中有哪些排序？这是个经典问题，且排序也是在大学学习《数据结构》这门课程中专门的一个章节，也是对排序以及其使用场景的加深源码部分仍然是先学习hadoop 简单的MapReduce源码分析(源码&流程&word count日志) 一文，然后直接来说说有哪些排序哪些排序？回忆MapTask的流程，基本如下且应当知道mapTask的输出，类似如下（按分区，且分区内key是按一定顺序的）输入经过map处理后是<K,V,P>

2020-05-09 20:55:42 370

原创 hadoop自定义分区&数据倾斜问题引入(仍然是wordcount 例子实践)

输入输出说明HDFS Block: 128Mwords_skew: 1.4G 大概 11块还多点，所以Block 0…11(共 12 个 block)最后单词计数结果abc 19178419count 19168329hadoop 19173414hello 153388549ok 19178346test 19174161world 19174238MR log20/...

2020-05-09 00:23:03 575

原创 Hadoop 两张表，三种 join 方式的实践

// TODO后续需要结合spark join 对比理解问题引入这也是网上搜出来的大部分订单表(orderId, proId, amount)1001 01 11002 02 21003 03 31004 01 41005 02 51006 03 6产品表(proId, proName)01 小米02 华为03 格力想要的join结果(即某个订单，属于哪个...

2020-05-04 22:57:25 573

原创 2020的五一生活记录

2020-05-03日记这个五一只有三天（上一个五一当然也只有三天）；上班后，已然不觉；昨天（5月2日加班了一天），而明天(05-04)又要开始上班了; 真的感叹这时光五一学习leetcode 5月也有每日一题了，做了两题druid.io 的一些知识又过了下，相关博文调整了下hadoop相关知识巩固了下；想学习spark, 学了点入门的无聊的视频看了看，无聊的游戏也玩了玩2020...

2020-05-03 17:50:42 446

原创 Spark 学习笔记（一）概念，demo入门

目录说明spark word count 例子说明TODO，就这一篇，自学个3个月spark word count 例子import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.a...

2020-05-03 15:20:44 277

原创大文本文件（接近7GB）: 统计频数，Top K问题求解（二）

目录说明原始输入word count MR & 输出输出MR日志TopK 求解输入输出附：Java代码说明本文是接着上一篇博文：大文本文件（接近7GB）: 统计频数，Top K问题求解，用Hadoop mapreduce 处理求解说明，标题沿用了上一篇的原始输入5.6G的原始txt数据，hdfs的block size=128MB，原始文件被分成了48个blockword coun...

2020-05-01 17:32:23 486