hadoop概述笔记

最新推荐文章于 2024-07-09 16:51:04 发布

-老先生-

最新推荐文章于 2024-07-09 16:51:04 发布

阅读量86

点赞数

文章标签： hadoop 大数据初学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38972783/article/details/88606086

版权

要用的版本hadoop-2.6.0-cdh5.7.0

hive-1.1.0-cdh5.7.0

文件以多副本的方式存储：

file1:node1 node2 node3

file2:node2 node3 node4

…

缺点：1.不论文件多大都放在一个节点，难并行处理。限于网络无法大数据处理

2.存储负载难以均衡，利用率极低

确定一个单位块的大小来解决

由此引出分布式文件系统HDFS

1 master(Namenode/NN)带N个Slaves(Datanode/DN)

一个文件会被拆分成多个block eg：128M–blocksize 130M–>128M and 2M

NN：

1）负责客户端的响应

2）负责元数据（文件名称、副本系数、Bolck存放的DN）的管理

DN：

1）存储用户的文件对应的数据块（Block）

2）要定期向NN发送心跳信息，回报本身及其所有的block信息，健康状态

注：可以部署在廉价机器上

一个机器部署NN，其他机器部署DN，虽然可以一台机器部署多个DN，但生产环境下不会这样选择。建议NN和DN部署于不同节点

HDFS副本机制：

replication factor:副本因子

副本是为了容错，可根据文件划分block大小

一个文件中所有的block除了最后一块都是一样大的

分机架(rack)可以做到信息容错。A Rack报废还有B Rack

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop概述笔记

要用的版本hadoop-2.6.0-cdh5.7.0hive-1.1.0-cdh5.7.0文件以多副本的方式存储：file1:node1 node2 node3file2:node2 node3 node4…缺点：1.不论文件多大都放在一个节点，难并行处理。限于网络无法大数据处理2.存储负载难以均衡，利用率极低确定一个单位块的大小来解决由此引出分布式文件系统HDFS1 mast...
复制链接

扫一扫

-老先生- CSDN认证博客专家 CSDN认证企业博客

码龄7年

30: 原创

54万+: 周排名

166万+: 总排名

2万+: 访问

: 等级

514: 积分

14: 粉丝

12: 获赞

4: 评论

24: 收藏

私信

关注

热门文章

分类专栏

网络 2篇
java基础 4篇
大数据初学 3篇
spring-boot 5篇
VUE 12篇
JS 11篇
数据库 2篇
java 1篇
数据结构 2篇

最新评论

前端概念复习＋VUE初学
weixin_46052682: 加油
伪分布式安装笔记3
Mew97 回复 -老先生-: 哈哈不用谢，互相交流
伪分布式安装笔记3
-老先生- 回复 Mew97: 万分感谢您！
伪分布式安装笔记3
Mew97: 想要通过hadoop来访问，在自己电脑hosts文件里添加hadoop的ip映射

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。