第一章 Hadoop入门
1.1 大数据概念
大数据 (Big Data): 海量数据的存储和海量数据的分析计算问题。
特点:
- Volume大量:存储单位 Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB
- Velocity高速:大量数据的产生速度快,数量增长速度快
- Variety多样 : 数据多样性,结构化数据和非结构化数据,视频、图像、声音数据
- Value低价值密度:需要筛选过滤出有价值数据。
1.2 Hadoop简介
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
解决两大问题 : 存储数据和检索数据
官网 : http://hadoop.apache.org/
中文文档 : http://hadoop.apache.org/docs/r1.0.4/cn/
1.2.1 HDFS
Hadoop分布式文件系统
1.2.2 Map-Reduce
分布式数据处理系统
1.2.3 YARN
分布式资源管理系统
1.2.4 Common
辅助工具
1.3 大数据生态