MapReduce
文章平均质量分 90
王小雷-多面手
简单而真诚。专注大数据,机器学习,人工智能的多面手,对新兴的技术与知识充满了好奇与渴望!
展开
-
MapReduce的编程思想(1)
1. MapReduce采用分而治之的思想,将数据处理拆分为主要的Map(映射)与Reduce(化简)两步,MapReduce操作数据的最小单位是一个键值对。2. MapReduce计算框架为主从架构,分别是JobTracker与TaskTracker。JobTracker在集群中为主的角色,它主要负责任务调度和集群资源监控,并不参与具体的计算。TaskTracker在集群中为从的角色,它主要负原创 2016-04-17 16:51:54 · 3084 阅读 · 0 评论 -
MapReduce的过程(2)
1. MapReduce从输入到输出一个MapReduce的作业经过了input、map、combine、reduce、output五个阶段。其中combine阶段不一定发生,map输出的中间结果被分发到reduce的过程称为shuffle(数据混洗)。shuffle阶段会发生copy(复制)和sort(排序)。Reduce任务默认在Map任务数量完成5%才开始启动。2. inputHD原创 2016-04-17 16:54:50 · 1470 阅读 · 0 评论 -
“卜算子·大数据”学习系列原创文章、源码——从入门到精通
大数据 big-data 转载请注明出处与作者信息(如下)原创作者:王小雷作品出自:https://github.com/wangxiaoleiAI/big-data联系邮件:wov@outlook.comStar Fork Follow 评论 issues项目地址 https://github.com/wangxiaoleiAI/machine-learning...原创 2018-06-14 10:26:01 · 1269 阅读 · 1 评论 -
卜算子·大数据简介 一个开源、成体系的大数据学习教程
第1章 卜算子·大数据简介“卜算子·大数据”,是一个开源、成体系的大数据学习教程。从基础数据采集到顶层架构设计。最新梳理出大数据知识体系共计12个部分,42个章节。每周日更新,金九银十际,助你上青天!本章主要内容:特点“卜算子·大数据”架构项目更新写作目的原创声明1.1 特点* 关于 * ——“卜算子·大数据”,其中“卜算子”是中国诗词中唯一包含计算、占卜、...原创 2018-06-29 11:50:52 · 2511 阅读 · 0 评论