Hadoop进阶

hadoop模仿谷歌大数据技术,开源。

Hadoop 开源的,分布式存储+分布式计算平台

两个核心组成:

HDFS:分布式文件系统,存储海量的数据

MapReduce: 并行处理框架,实现任务分解和调度


可以用来做什么?

搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务。


优势:

高扩展

低成本

成熟的生态圈


应用情况

百度,腾讯,阿里都在用


生态系统

HIVE,

habse和hdfs区别:提供数据随机读写和实时访问,实现对表数据的读写功能

zookeeper:


LINUX环境,除了虚拟机、装系统,可租用云主机,阿里云、unitedStack等


HDFS介绍:

文件被分成块存储,默认大小是64MB,块是文件存储处理的逻辑单元。

HDFS中有两类节点NameNodde和DataNode

namenode:是管理节点,存放文件元数据

(1)文件与数据块的映射表

(2)数据块与数据节点的映射表

datanode:是工作节点,存放数据块





HDFS特点:

1、数据冗余,硬件容错

2、流式的数据访问

3、存储大文件

4、适合数据批量读写,吞吐量高,不适合交互式应用,低延迟很难满足

适合一次写入多次读取,顺序读写

不支持多用户并发写相同文件


mapReduce:分而治之,一个大任务分成多个小任务(map),并行执行后,合并结果(reduce)


job & task

jobTracker角色:

(1)作业调度

(2)分配任务、监控任务执行进度

(3)监控TaskTracker的状态

TaskTracker角色:

(1)执行任务

(2)汇报任务状态



MapReduce容错机制:

(1)重复执行

(2)推测执行




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值