Hadoop错误解决：Bad connect ack with firstBadLink as ×.×.×.×:50010

最新推荐文章于 2023-07-07 19:22:50 发布

andyguan01_2

最新推荐文章于 2023-07-07 19:22:50 发布

阅读量3.8k

点赞数 2

分类专栏： hadoop

本文链接：https://blog.csdn.net/andyguan01_2/article/details/88576543

版权

hadoop 专栏收录该内容

21 篇文章 1 订阅

订阅专栏

问题描述：

通过Azkaban调Sqoop，将Oracle数据导入Hive，报Bad connect ack with firstBadLink as ×.×.×.×:50010（×.×.×.×为Hadoop集群其中一个DataNode的IP，我这里隐去了实际值）错误，如下：

14-03-2019 15:50:15 CST sqoop INFO - Mar 14, 2019 7:50:15 AM org.apache.hadoop.hdfs.DFSClient createBlockOutputStream
14-03-2019 15:50:15 CST sqoop INFO - INFO: Exception in createBlockOutputStream
14-03-2019 15:50:15 CST sqoop INFO - java.io.IOException: Bad connect ack with firstBadLink as ×.×.×.×:50010
14-03-2019 15:50:15 CST sqoop INFO - 	at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:1456)
14-03-2019 15:50:15 CST sqoop INFO - 	at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(DFSOutputStream.java:1357)
14-03-2019 15:50:15 CST sqoop INFO - 	at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:587)

这个错误会一直重复报，大概十几次后，程序又可以正常跑完。

解决方法：

我这边的Hadoop集群架构是：
在这里插入图片描述

一个NameNode，两个DataNode。可以当做117和116在同一机架，156在另外机架。Azkaban、Sqoop和Hive都部署在NameNode。从报错信息来看，是DataNode2的50010端口不通。50010是DataNode服务端口，用于数据传输。

我先在NameNode上telnet DataNode2的50010端口，是通的。于是觉得奇怪，难道是网络不稳定？但是从telnet的数据来看，网络是稳定的。

后来去查看Sqoop导入到Hive的表对应的HDFS文件块信息，发现文件块只存放在NataNode1。（HDFS的文件副本数设置的是2）

最后发现，虽然NameNode和两台DataNode的50010端口都是通的，但是DataNode1到DataNode2的50010端口不通。将DataNode2的50010端口对DataNode1开放后，再执行Azkaban调度就不报错了。

思考：

NameNode和两台DataNode的50010端口都通，但两台NataNode之间的50010端口不通，为什么会报无法连接DataNode2的50010端口的错误，然后重复十多次之后，又会将数据写到DataNode1。

通常情况下，当启动一个容器用于处理HDFS数据块（为了在MapReduce中运行一个map任务）时，应用将会向这样的节点申请容器：存储该数据块副本的所有节点，或是存储这些副本的机架中的一个节点。如果都申请失败，则申请集群中的任意节点。

我猜测数据处理流程是这样的：
在这里插入图片描述
1、Sqoop程序在NameNode上启动后，先从其他源库获取到数据。

2、应用启动程序处理HDFS块，准备将数据写入HDFS。因为HDFS副本数设置的是2，现在只有DataNode1和DataNode2两个DataNode，所以应用会向这两个DataNode申请容器。由于NameNode和两个DataNode之间的网络端口都是通的，所以没有问题。

3、因为Sqoop程序运行在NameNode，而DataNode1和NameNode在同一机架，会优先将数据写入离客户端执行程序最近的DataNode的HDFS，所以数据先写入DataNode1，同时也会复制一份存放到DataNode2。

4、DataNode1通过访问DataNode2的50010端口来复制副本，但由于端口不通，所以会报错，但不是报错一次后就马上停止，而是会重复多次执行。

5、直到报错次数达到一定限制，确认DataNode1无法向DataNode2写数据，这时就不再向DataNode2复制副本，只在DataNode1存储数据。

6、数据同步完后，查看Hive表对应的HDFS文件块位置，只存放在NataNode1，没有存放在DataNode2。

7、在DataNode2开放50010端口给DataNode1访问后，再次同步数据，发现HDFS文件块在DataNode1和2都存在。

以上是我的猜想，如有错误欢迎指正。

完毕。

andyguan01_2

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hadoop错误解决：Bad connect ack with firstBadLink as ×.×.×.×:50010

问题描述：通过Azkaban调Sqoop，将Oracle数据导入Hive，报Bad connect ack with firstBadLink as ×.×.×.×:50010（×.×.×.×为Hadoop集群其中一个DataNode的IP，我这里隐去了实际值）错误，如下：14-03-2019 15:50:15 CST sqoop INFO - Mar 14, 2019 7:50:15 AM ...
复制链接

扫一扫

专栏目录