《数据算法 hadoop spark大数据处理技巧》笔记前言

最新推荐文章于 2022-08-13 00:07:03 发布

kdb_viewer

最新推荐文章于 2022-08-13 00:07:03 发布

阅读量531

点赞数

分类专栏：开源工程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kdb_viewer/article/details/82458450

版权

开源工程专栏收录该内容

38 篇文章 6 订阅

订阅专栏

MapReduce：是一个软件框架，采用并行、分布式方式处理大数据集，目标是实现可伸缩性，重点是编写两个函数：map和reduce

map()：过滤和聚集数据。主节点得到数据，将数据分成小块，分布到若干从节点处理。从节点对每个数据块应用同样的转换函数，将结果传回主节点

reduce()：根据map()生成的键完成归约、分组、总结。主节点根据唯一的键-值对将接收到的结果进行洗牌、聚集，传回从节点，应用另一类转换函数组合这些值

映射器==>合并器==>归约器

不共享范式：这个很好理解，原始input被分成若干键值对到每个映射器，每个映射器之间是彼此独立的，可以并行执行；所有映射器完成工作以后，每个归约器处理的是某个键对应的若干值，这个过程也是彼此独立的，可以并行执行

不适用MapReduce的场景：

1.处理图，因为是迭代的，无法分割

2.一个值的计算依赖之前的值，比如fibonacci数列

3.需要同步来处理共享数据

关于MapReduce的几个概念：

1.MapReduce不是编程语言，是一个框架，支持c++、java等开发

2.MapReduce不能取代关系型数据库，其输入是纯文本文件，hadoop框架会按照行来映射

3.设计用于批处理，不能期望在几秒钟之内得到结果，很慢，实测简单的input需要几秒，大量数据需要若干分钟

Spark和MapReduce的区别：MapReduce适用于适合单趟计算的场景，即先map然后reduce，对于多趟算法效率很低，Spark不限于先映射再归约，可以是一个映射、归约、洗牌构成的有向无环图DAG。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《数据算法 hadoop spark大数据处理技巧》笔记前言

MapReduce：是一个软件框架，采用并行、分布式方式处理大数据集，目标是实现可伸缩性，重点是编写两个函数：map和reducemap()：过滤和聚集数据。主节点得到数据，将数据分成小块，分布到若干从节点处理。从节点对每个数据块应用同样的转换函数，将结果传回主节点reduce()：根据map()生成的键完成归约、分组、总结。主节点根据唯一的键-值对将接收到的结果进行洗牌、聚集，传回从节点...
复制链接

扫一扫

专栏目录

kdb_viewer CSDN认证博客专家 CSDN认证企业博客

码龄8年

131: 原创

7万+: 周排名

109万+: 总排名

16万+: 访问

: 等级

2413: 积分

46: 粉丝

67: 获赞

13: 评论

275: 收藏

私信

关注

热门文章

分类专栏

汇编 1篇
分布式 2篇
algorithm 26篇
机器学习 1篇
C 2篇
cplusplus 20篇
数据库 10篇
开源工程 38篇
数据结构 4篇
linux 17篇
java 1篇
hadoop 8篇
python 3篇
综合 1篇
C语言修饰符 3篇
ruby
计算机网络 6篇

最新评论

shell管道前后多个进程和进程组的关系
qq_22487889: 作者，这里有个点可以研究，就是为什么这两个进程的进程组，为什么和shell的进程组不一样。实际上进程和其fork exec的进程有相同的进程组。
leveldb NoDestructor类解析
792199369: 这个 std::aligned_storage<T1, T2>::type 是什么类型啊
bthread源码分析（一）概述
春夜喜雨: bthread没有去读过，但代码量1w-2w挺合适，和leveldb相近，应该还是值得一读的！
c++17 string_view
温温尔耳: string的默认构造函数可能用的是malloc 而不是new 所有就没有打印
c++17 string_view
温温尔耳: 打桩测试觉得挺有用啊，可是我这边打桩new操作符没有打印信息呀，为何呀

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。