大数据Hadoop基础入门到精通

最新推荐文章于 2023-11-16 16:17:17 发布

weixin_38166931

最新推荐文章于 2023-11-16 16:17:17 发布

阅读量162

点赞数

文章标签：大数据爬虫操作系统

原文链接：http://www.cnblogs.com/zhichun/p/11361255.html

版权

1.hadoop前世今生：

　　1）搜索引擎：网络爬虫+索引服务器（生成索引+检索）

　　2） Doung Cutting

　　3) Nutch

　　　　a.分布式存储

　　　　b.分布式计算

　　4）GFS论文 doung cutting写了hdfs

2.hadoop概述

　　hadoop common:提供网络通信

　　hadoop hdfs

　　hadoop mapreduce

　　hadoop yarn

Hadoop 0.x 1.x

Hadoop 2.x之后的版本

Hadoop 概述

hdfs引入

NameNode是主节点存储元数据，以及每个文件所在的块列表和块所在的DataNode

DataNode存储块数据和校验和

SecondaryNamenode 监控后台数据，获取快照

1)四大模块

2）hdfs(hadoop distributed file system)：分布式文件系统

　　a.文件系统：文件管理+block块管理

　　单机文件系统

　　window:FAT16、FAT32、NTFS

　　linux:ext 2/3/4、 VFS

　　b.分布式文件系统

　　多个服务器文件系统

　　c.三大组件

　　NameNode

　　元数据：文件名、目录名、属性
　　文件列表与block列表之间的关系
　　block与datanode列表映射关系

　　Datanode

　　block块数据、校验和编码

　　SecondaryNameNode

　　分担namenode压力，合并编辑日志edits和镜像文件fsimage,合并后将最终的文件返回namenode进行处理

　　

Hadoop概述

YARN引入案例

转载于:https://www.cnblogs.com/zhichun/p/11361255.html

weixin_38166931

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。