Hadoop错误解决:Bad connect ack with firstBadLink as ×.×.×.×:50010

问题描述:

通过Azkaban调Sqoop,将Oracle数据导入Hive,报Bad connect ack with firstBadLink as ×.×.×.×:50010(×.×.×.×为Hadoop集群其中一个DataNode的IP,我这里隐去了实际值)错误,如下:

14-03-2019 15:50:15 CST sqoop INFO - Mar 14, 2019 7:50:15 AM org.apache.hadoop.hdfs.DFSClient createBlockOutputStream
14-03-2019 15:50:15 CST sqoop INFO - INFO: Exception in createBlockOutputStream
14-03-2019 15:50:15 CST sqoop INFO - java.io.IOException: Bad connect ack with firstBadLink as ×.×.×.×:50010
14-03-2019 15:50:15 CST sqoop INFO - 	at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:1456)
14-03-2019 15:50:15 CST sqoop INFO - 	at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(DFSOutputStream.java:1357)
14-03-2019 15:50:15 CST sqoop INFO - 	at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:587)

这个错误会一直重复报,大概十几次后,程序又可以正常跑完。

解决方法:

我这边的Hadoop集群架构是:
在这里插入图片描述

一个NameNode,两个DataNode。可以当做117和116在同一机架,156在另外机架。Azkaban、Sqoop和Hive都部署在NameNode。从报错信息来看,是DataNode2的50010端口不通。50010是DataNode服务端口,用于数据传输。

我先在NameNode上telnet DataNode2的50010端口,是通的。于是觉得奇怪,难道是网络不稳定?但是从telnet的数据来看,网络是稳定的。

后来去查看Sqoop导入到Hive的表对应的HDFS文件块信息,发现文件块只存放在NataNode1。(HDFS的文件副本数设置的是2)

最后发现,虽然NameNode和两台DataNode的50010端口都是通的,但是DataNode1到DataNode2的50010端口不通。将DataNode2的50010端口对DataNode1开放后,再执行Azkaban调度就不报错了。

思考:

NameNode和两台DataNode的50010端口都通,但两台NataNode之间的50010端口不通,为什么会报无法连接DataNode2的50010端口的错误,然后重复十多次之后,又会将数据写到DataNode1。

通常情况下,当启动一个容器用于处理HDFS数据块(为了在MapReduce中运行一个map任务)时,应用将会向这样的节点申请容器:存储该数据块副本的所有节点,或是存储这些副本的机架中的一个节点。如果都申请失败,则申请集群中的任意节点。

我猜测数据处理流程是这样的:
在这里插入图片描述
1、Sqoop程序在NameNode上启动后,先从其他源库获取到数据。

2、应用启动程序处理HDFS块,准备将数据写入HDFS。因为HDFS副本数设置的是2,现在只有DataNode1和DataNode2两个DataNode,所以应用会向这两个DataNode申请容器。由于NameNode和两个DataNode之间的网络端口都是通的,所以没有问题。

3、因为Sqoop程序运行在NameNode,而DataNode1和NameNode在同一机架,会优先将数据写入离客户端执行程序最近的DataNode的HDFS,所以数据先写入DataNode1,同时也会复制一份存放到DataNode2。

4、DataNode1通过访问DataNode2的50010端口来复制副本,但由于端口不通,所以会报错,但不是报错一次后就马上停止,而是会重复多次执行。

5、直到报错次数达到一定限制,确认DataNode1无法向DataNode2写数据,这时就不再向DataNode2复制副本,只在DataNode1存储数据。

6、数据同步完后,查看Hive表对应的HDFS文件块位置,只存放在NataNode1,没有存放在DataNode2。

7、在DataNode2开放50010端口给DataNode1访问后,再次同步数据,发现HDFS文件块在DataNode1和2都存在。

以上是我的猜想,如有错误欢迎指正。

完毕。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值