一、大数据的概念
大数据的特点
大量化
速度快
多样化
价值密度低
二、关于Hadoop
hadoop的操作网址:
http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/SingleCluster.html
hadoop使用背景:
适合海量数据的计算。
低成本:
基于开源软件。
运行于通用硬件平台。
高拓展性:
在可用的计算机集簇间分配数据并完成任务。
这些集簇可以方便拓展到数以千计的节点中。
高效性:
高容错性
三、HDFS架构
HDFS数据写流程:
四、分布式计算框架MapReduce
一、MapReduce特点:
1、使用于海量数据的离线处理
2、易于编程
3、良好的扩展性
4、高容错性
MapReduce不适合的场景:
实时计算、流式计算、DAG计算
MapReduce编程模型:(很重要!)
流程解析:读取文件 splitting拆分 mapping计算 shuffling洗牌排序 汇总 结果统计
(持续更新)