大数据概况
- 大数据:
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 - 大数据特征:
- 4V特征
Volume(大数据量):90% 的数据是过去两年产生
Velocity(速度快):数据增长速度快,时效性高
Variety(多样化):数据种类和来源多样化;结构化数据、半结构化数据、非结构化数据
Value(价值密度低):需挖掘获取数据价值 - 固有特征
时效性
不可变性
- 分布式计算:分布式计算将较大的数据分成小的部分进行处理。
- Hadoop简介
- Hadoop是一个开源分布式系统架构
分布式文件系统HDFS——解决大数据存储
分布式计算框架MapReduce——解决大数据计算
分布式资源管理系统YARN - 处理海量数据的架构首选
- 非常快得完成大数据计算任务
- 已发展成为一个Hadoop生态圈
- Hadoop发行版本
社区版:Apache Hadoop
Cloudera发行版:CDH
Hortonworks发行版:HDP - Zookeeper
- 是一个分布式应用程序协调服务
----解决分布式集群中应用系统的一致性问题 - 提供的功能
----配置管理、命名服务、分布式同步、队列管理、集群管理等 - 特性
----全局数据一致
----可靠性、顺序性、实时性
----数据更新原子性 - Zookeeper集群
角色:Leader、Follower、Observer
- Hadoop架构
- HDFS(Hadoop Distributed File System)
分布式文件系统,解决分布式存储 - MapReduce
分布式计算框架 - YARN
分布式资源管理系统
在Hadoop 2.x中引入 - Common
支持所有其他模块的公共工具程序