MapReduce: Simplified DataProcessingonLargeClusters阅读笔记

本文是关于MapReduce的阅读笔记,介绍了MapReduce作为编程模型和分布式计算框架的原理和应用。MapReduce将计算分为map和reduce两个阶段,简化了大规模数据集的处理,适合数据密集型应用。文章还探讨了数据密集型应用与计算密集型应用的区别,以及分布式、并行、并发的概念。此外,文中提及摩尔定律失效后,编程方式从顺序向并行转变,强调MapReduce隐藏了复杂的分布式计算细节,让开发者专注于业务逻辑。
摘要由CSDN通过智能技术生成

论文地址

https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/mapreduce-osdi04.pdf

一、背景

在阅读这篇论文之前,需要了解以下概念。

1、数据密集型应用 vs 计算密集型应用

数据密集型应用大概就是数据量很大但计算逻辑比较简单地应用,如大数据量的排序。而计算密集型应用则相反,其大部分时间用来做计算、逻辑判断等CPU操作,如一个计算圆周率到小数点后一千位以下的程序就是计算密集型应用。计算密集型应用相关的概念有高性能计算、超级计算、网格计算等。

两者都是基于分布式,但两者又存在区别。传统的计算密集型应用往往通过并行计算方式,在紧耦合的超级计算机上运行少量计算作业,即一个作业同时占用大量的计算机节点。而数据密集型应用则通常是将大量独立的数据分析处理作业分布在松耦合的计算机集群的不同节点上运行,有高度密集的海量数据I/O吞吐需求,并且大部分数据密集型应用都有个数据流驱动的流程。

关于数据密集型应用的知识可以看下面这本书:

https://book.douban.com/subject/30329536/

https://github.com/Vonng/ddia

2、分布式、并行、并发

分布式:在计算机发展阶段的早期,我们主要靠大型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值