HDFS--hadoop集群

最新推荐文章于 2024-06-28 09:37:28 发布

gerry.tan

最新推荐文章于 2024-06-28 09:37:28 发布

阅读量361

点赞数 1

分类专栏：大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_21835703/article/details/51960240

版权

大数据同时被 2 个专栏收录

27 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

1. hadoop三篇论文：

– GFS

– Map-Reduce

– Bigtable

2.HDFS优缺点：

HDFS优点：

– 高容错性

• 数据自动保存多个副本

• 副本丢失后，自动恢复

– 适合批处理

• 移动计算而非数据

• 数据位置暴露给计算框架

– 适合大数据处理

• GB 、TB 、甚至PB 级数据

• 百万规模以上的文件数量

• 10K+ 节点

– 可构建在廉价机器上

• 通过多副本提高可靠性

• 提供了容错和恢复机制

HDFS缺点：

– 低延迟数据访问

• 比如毫秒级

• 低延迟与高吞吐率

– 小文件存取

• 占用NameNode 大量内存

• 寻道时间超过读取时间

– 并发写入、文件随机修改

• 一个文件只能有一个写者

• 仅支持append

3. HDFS架构流程：

4. Block

HDFS 数据存储单元（block）

– 文件被切分成固定大小的数据块

• 默认数据块大小为64MB(hadoop1.x)，可配置

• 若文件大小不到64MB ，则单独存成一个block

– 一个文件存储方式

• 按大小被切分成若干个block ，存储到不同节点上

• 默认情况下每个block都有三个副本

– Block大小和副本数通过Client端上传文件时设置，文件上传成功后副本数可以变更，Block Size不可变更

HDFS设计思想：

5. NN SNN DN（元数据 fsimage edits）

NameNode（NN）

– NameNode主要功能：接受客户端的读写服务

– NameNode保存metadate信息包括

• 文件owership和permissions

• 文件包含哪些块

• Block保存在哪个DataNode（由DataNode启动时上报）

– NameNode的metadate信息在启动后会加载到内存

• metadata存储到磁盘文件名为”fsimage”

• Block的位置信息不会保存到fsimage

• edits记录对metadata的操作日志

SecondaryNameNode（SNN）

– 它不是NN的备份（但可以做备份），它的主要工作是帮助NN合并edits log，减少NN启动时间。

– SNN执行合并时机

• 根据配置文件设置的时间间隔fs.checkpoint.period 默认3600秒

• 根据配置文件设置edits log大小fs.checkpoint.size 规定edits文件的最大值默认是64MB

SNN合并流程

DataNode（DN）

– 存储数据（Block）

– 启动DN线程的时候会向NN汇报block信息

– 通过向NN发送心跳保持与其联系（3秒一次），如果NN 10分钟没有收到DN的心跳，则认为其已经lost，并copy其上的block到其它DN

6. Block副本策略

7. 安全模式 safemode

– namenode启动的时候，首先将映像文件(fsimage)载入内存，并执行编辑日志(edits)中的各项操作。

– 一旦在内存中成功建立文件系统元数据的映射，则创建一个新的fsimage文件(这个操作不需要SecondaryNameNode)和一个空的编辑日志。

– 此刻namenode运行在安全模式。即namenode的文件系统对于客服端来说是只读的。(显示目录，显示文件内容等。写、删除、重命名都会失败)。

– 在此阶段Namenode收集各个datanode的报告，当数据块达到最小副本数以上时，会被认为是“安全”的，在一定比例（可设置）的数据块被确定为“安全”后，再过若干时间，安全模式结束

– 当检测到副本数不足的数据块时，该块会被复制直到达到最小副本数，系统中数据块的位置并不是由namenode维护的，而是以块列表形式存储在datanode中。

8. HDFS文件权限

– 与Linux文件权限类似

• r: read;w:write; x:execute，权限x对于文件忽略，对于文件夹表示是否允许访问其内容

– 如果Linux系统用户zhangsan使用hadoop命令创建一个文件，那么这个文件在HDFS中owner就是zhangsan。

– HDFS的权限目的：阻止好人错错事，而不是阻止坏人做坏事。HDFS 相信，你告诉我你是谁，我就认为你是谁。

9. 安全管理 hdfs安全认证用户名匹配

10. Hdfs完全分布式搭建

4台虚拟机

node3 NN

node4 SNN

node4-6DN

1、host hosts 网络

修改hosts文件：vi /etc/hosts

同步四台虚拟机的hosts文件。

2、时间同步ntp

安装ntp：yum –y install ntp

设置时间同步：ntpdate 210.72.145.44

3、防火墙

service iptables stop 立即关闭，重启后失效

chkconfig iptables off 永久关闭，重启后生效

4、jdk 配置环境变量

添加配置：vi ~/.bash_profile

export PATH

export JAVA_HOME=/usr/java/jdk1.7.0_79

export PATH=$PATH:$JAVA_HOME/bin

修改立即生效：source ~/.bash_profile

5、免密钥

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >>~/.ssh/authorized_keys

与其它机器免密钥连接，将.ssh/id_dsa.pub追加到另一台机器的~/.ssh/authorized_keys文件中

6、上传tar 解压

tar –zxvf *.gz.tar

7、修改配置文件

hadoop-env.sh 修改java_home路径

core-site.xml

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://node1:9000</value> 请求hdfs

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/opt/hadoop</value> hadoop存放目录该目录下边不允许有任何文件或者目录

</property>

</configuration>

hdfs-site.xml

<configuration>

<property>

<name>dfs.replication</name>

<value>3</value> block副本数量

</property>

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>node4:50090</value> SNN http请求的端口

</property>

<property>

<name>dfs.namenode.secondary.https-address</name>

<value>node4:50091</value> SNN https请求的端口

</property>

</configuration>

vi slaves (DN)

node4

node5

node6

vi masters (SNN,该文件与slaves同级目录，需要创建)

node4

!!! 同步集群当中所有节点上的配置文件！！！

8、格式化NN

添加环境变量:vi ~/.bash_profile

exportCLASSPATH=.:/lib/dt.jar:/lib/tools.jar

exportHADOOP_HOME=/usr/hadoopsoft/hadoop-2.5.1

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

source ~/.bash_profile

在NN上执行 hdfs namenode -format

9、启动dfs

在一台机器上执行：/usr/hadoopsoft/hadoop-2.5.1/sbin /start-dfs.sh

11. Hdfs shell

12. Eclipse使用

将jar包hadoop-eclipse-plugin-2.5.1.jar复制到Eclipse安装目录下的plugins下

点击菜单栏window -> show view -> Map/Reduce Location

13. Java API

gerry.tan CSDN认证博客专家 CSDN认证企业博客

码龄10年

49: 原创

14万+: 周排名

99万+: 总排名

15万+: 访问

: 等级

1613: 积分

20: 粉丝

41: 获赞

20: 评论

77: 收藏

私信

关注

热门文章

分类专栏

Java 1篇
Linux 4篇
大数据 27篇
hadoop 3篇
Zookeeper 4篇
算法数据结构 1篇
Elasticseach 9篇
spark 21篇
Redis
Mysql 1篇
hbase 1篇
python 1篇
数据库 1篇
Golang 1篇

最新评论

CDH搭建那些事
qq_41500999: 所有节点都安装 yum -y install chkconfig python bind-utilspsmisc libxslt zlib sqlite fuse fuse-libs redhat-lsb cyrus-sasl-plaincyrus-sasl-gssapi 博主这个需要连网的吧
spark性能调优（四）调节堆外内存和等待时长
yanji94521: 问题说的很好，解决的不到位，说明大佬分析数据量不大
spark troubleshooting--错误的持久化方式以及checkpoint的使用
ceezyyy: 你是我大哥
java8 获取当天的开始时间和结束时间
Big猩猩: 有用
Golang查询Elasticsearch
虹少侠: 你好博主，我想问问怎么用golang表示es随机搜索， client.Search(). Index(esIndex). Type(esType). From(from).Size(size). SortBy(elastic.NewScriptSort(elastic.NewScript(strconv.Itoa(rand.Int())), "number")). Query(boolQuery). Pretty(true). Do(context.Background()) 我这样写发生了错误：Error 500 (Internal Server Error): all shards failed [type=search_phase_execution_exception]

大家在看

【力扣283+189】移动零、轮转数组（非官方思路）

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。