前言
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
了解过大数据的小伙伴一定都知道MapReduce,kafka,Flink这三种很热门的流式计算框架吧
既然大家已经知道了MapReduce,kafka,Flink对于学好大数据的重要性,就缺少对应的学习资源来学习了吧!别怕小编这里已经给大家整理好啦,总共有20G的资源,希望大家能够喜欢!
总共分为三大部分,那么我们就先从谷歌三宝之一,hadoop中很重要的MapReduce开始讲起吧!
MapReduce
1:MapReduce是干啥的
因为没找到谷歌的示意图,所以我想借用一张Hadoop项目的结构图来说明下MapReduce所处的位置,如下图。
Hadoop实际上就是谷歌三宝的开源实现,Hadoop MapReduce对应Google MapReduce,HBase对应BigTable,HDFS对应GFS。HDFS(或GFS)为上层提供高效的非结构化存储服务,HBase(或BigTable)是提供结构化数据服务的分布式数据库,Hadoop MapReduce(或Google MapReduce)是一种并行计算的编程模型,用于作业调度。
GFS和BigTable已经为我们提供了高性能、高并发的服务,但是并行编程可不是所有程序员都玩得转的活儿,如果我们的应用本身不能并发,