Hadoop进阶

最新推荐文章于 2022-02-11 20:21:27 发布

寂小楠

最新推荐文章于 2022-02-11 20:21:27 发布

阅读量563

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013176138/article/details/78666148

版权

hadoop模仿谷歌大数据技术，开源。

Hadoop 开源的，分布式存储+分布式计算平台

两个核心组成：

HDFS:分布式文件系统，存储海量的数据

MapReduce: 并行处理框架，实现任务分解和调度

可以用来做什么？

搭建大型数据仓库，PB级数据的存储、处理、分析、统计等业务。

优势：

高扩展

低成本

成熟的生态圈

应用情况

百度，腾讯，阿里都在用

生态系统

HIVE,

habse和hdfs区别：提供数据随机读写和实时访问，实现对表数据的读写功能

zookeeper:

LINUX环境，除了虚拟机、装系统，可租用云主机，阿里云、unitedStack等

HDFS介绍：

文件被分成块存储，默认大小是64MB，块是文件存储处理的逻辑单元。

HDFS中有两类节点NameNodde和DataNode

namenode:是管理节点，存放文件元数据

（1）文件与数据块的映射表

（2）数据块与数据节点的映射表

datanode:是工作节点，存放数据块

HDFS特点：

1、数据冗余，硬件容错

2、流式的数据访问

3、存储大文件

4、适合数据批量读写，吞吐量高，不适合交互式应用，低延迟很难满足

适合一次写入多次读取，顺序读写

不支持多用户并发写相同文件

mapReduce:分而治之，一个大任务分成多个小任务（map）,并行执行后，合并结果（reduce）

job & task

jobTracker角色：

（1）作业调度

（2）分配任务、监控任务执行进度

（3）监控TaskTracker的状态

TaskTracker角色：

（1）执行任务

（2）汇报任务状态

MapReduce容错机制：

（1）重复执行

（2）推测执行

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。