大数据运算
砥砺前行的疯子
这个作者很懒,什么都没留下…
展开
-
HA on yarn的搭建流程及JAVA代码对HDFS上大数据的处理(附代码)
在HDFS-HA的基础上搭建: 1.复制一份配置文件cp mapred-site.xml.template mapred-site.xml 2.对etc/hadoop/mapred-site.xml添加 classic经典的老版本 没有将资源调用和内存调用分开 local本地客户端模拟进行 yarn <.configuration> <.property> <.n...原创 2019-04-10 22:53:06 · 4319 阅读 · 0 评论 -
hadoop源码解析一步到位
YarnChild,由NodeManager通过脚本启动 YarnChild的main方法中调用Task的run方法 task可以是maptask也可以是reducetask 163 taskFinal.run(job, umbilical); // run the task 在MapTask中,run方法调用了它自己的runNewMapper方法 784行MapTask调用了mapper的run...原创 2019-04-12 08:58:06 · 9085 阅读 · 0 评论 -
最经典的大数据案例解析(附代码)
首先我们来说说需求 假设以上就是我们需要处理的数据,我们需要计算出每个月天气最热的两天。 首先我们对自己提出几个问题 1.怎么划分数据,怎么定义一组??? 2.考虑reduce的计算复杂度??? 3.能不能多个reduce??? 4.如何避免数据倾斜??? 5.如何自定义数据类型??? ----记录特点 每年 每个月 温度最高 2天 1天多条记录怎么处理? ----进一步思考 年月分组 温度升序 ...原创 2019-04-13 22:45:30 · 14792 阅读 · 0 评论