一.大数据特点
1.数据量大
2.产生速度快
3.种类多
4.具有价值
二.Hadoop
存储和计算框架 解决两个问题
只适合与离线的计算
1.Hadoop之父Dcug Cutting
不移动数据,移动算法。
2.hadoop优势:
高可靠性 hadoop底层维护多个数据副本方式
高扩展性 在集群间分配任务数据
高效性 并行工作
高错容性 能够自动将失败的任务重新分配
3.Hadoop组成:
两个版本:
1. 实现并行计算的框架是MapReduce(计算+资源调度)HDFS(分布式计算存储数据存储)Common(辅助工具)。
2. 将MapReduce解放出来专门做计算,提高了Mp整体的运行效率Yarn(资源调度)HDFS common