hadoop模仿谷歌大数据技术,开源。
Hadoop 开源的,分布式存储+分布式计算平台
两个核心组成:
HDFS:分布式文件系统,存储海量的数据
MapReduce: 并行处理框架,实现任务分解和调度
可以用来做什么?
搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务。
优势:
高扩展
低成本
成熟的生态圈
应用情况
百度,腾讯,阿里都在用
生态系统
HIVE,
habse和hdfs区别:提供数据随机读写和实时访问,实现对表数据的读写功能
zookeeper:
LINUX环境,除了虚拟机、装系统,可租用云主机,阿里云、unitedStack等
HDFS介绍:
文件被分成块存储,默认大小是64MB,块是文件存储处理的逻辑单元。
HDFS中有两类节点NameNodde和DataNode
namenode:是管理节点,存放文件元数据
(1)文件与数据块的映射表
(2)数据块与数据节点的映射表
datanode:是工作节点,存放数据块
HDFS特点:
1、数据冗余,硬件容错
2、流式的数据访问
3、存储大文件
4、适合数据批量读写,吞吐量高,不适合交互式应用,低延迟很难满足
适合一次写入多次读取,顺序读写
不支持多用户并发写相同文件
mapReduce:分而治之,一个大任务分成多个小任务(map),并行执行后,合并结果(reduce)
job & task
jobTracker角色:
(1)作业调度
(2)分配任务、监控任务执行进度
(3)监控TaskTracker的状态
TaskTracker角色:
(1)执行任务
(2)汇报任务状态
MapReduce容错机制:
(1)重复执行
(2)推测执行