这里写目录标题
Hadoop大数据
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
大数据特征:
4V特征:
Volume(大数据量):90%的数据是过去两年产生
Velocity(速度快):数据增长速度快,时效性高
Variety(多样化):数据种类和来源多样化
结构化数据、半结构化数据、非结构化数据
Value(价值密度低):需要挖掘数据价值
固有特征:
时效性
不可变性
分布式计算
分布式计算将较大的数据分成小的部分进行处理
项目 | 传统分布式计算 | 新的分布式计算-Hadoop |
---|---|---|
计算方式 | 将数据复制到计算节点 | 在不同数据节点并行计算 |
可处理数据量 | 小数据量 | 大数据量 |
Cpu性能限制 | 受cpu限制较大 | 受单台设备限制小 |
提升计算能力 | 提升单台机器计算能力 | 扩展低成本服务器集群 |
hadoop
Hadoop是一个开源分布式系统架构
- 分布式文件系统HDFS——解决大数据存储
- 分布式计算框架MapReduce——解决大数据计算
- 分布式资源管理系统YARN
处理海量数据的架构首选
非常快的完成大数据计算任务
已发展成为一个Hadoop生态圈
起源
- Hadoop起源于搜索引擎Apache Nutch
- 创始人:Dong Cutting
2004年——最初版本实施
2008年——成为Apache顶级项目
- 创始人:Dong Cutting
- Hadoop发行版本
- 社区版:Apache Hadoop
Cloudera发行版:CDH
Hortonworks发行版:HDP
- 社区版:Apache Hadoop
优缺点
- 使用Hadoop的优点:
- 高扩展性、可伸缩
高可靠性
多副本机制。容错高
低成本
无共享架构
灵活,可存储任意数据类型
开源,社区活跃
- 高扩展性、可伸缩
与传统数据库对比
Hadoop与关系型数据库对比
项目 | RDBMS | Hadoop |
---|---|---|
格式 | 写数据时要求 | 读数据时要求 |
速度 | 读数据速度快 | 写数据速度快 |
数据监管 | 准结构化 | 任意数据结构 |
数据处理 | 有限的处理能力 | 强大的处理能力 |
数据类型 | 结构化数据 | 结构化、半结构化、非结构化 |
应用场景 | 交互式OLAP分析、ACID事务处理、企业业务系统 | 处理非结构化数据、海量数据存储计算 |
<