Hadoop集群常见错误

74 篇文章 0 订阅
64 篇文章 1 订阅

(一)启动hadoop集群时易出现的错误:

1.   错误现象:java.net.NoRouteToHostException: No route to host.

   原因:master服务器上的防火墙没有关闭。

   解决方法: 在master上关闭防火墙: chkconfig iptables off.

2.    错误现象:org.apache.hadoop.ipc.RPC: Server at JMN/10.22.1.203:9000 not available yet.    /* JMN/10.22.1.203 是  hadoop集群当中master的主机名/ip */

   原因:/etc/hosts中的文件被自动篡改。

   解决方法: 将/etc/hosts 文件按配置文件要求改回来。

3.    错误现象:Too many fetch-failures.

   原因:结点间的连通不够全面。

   解决方法:

        1) 检查 /etc/hosts要求本机ip对应服务器名,并且包含所有的服务器ip和服务器名。

        2) 检查 .ssh/authorized_keys要求包含所有服务器(包括其自身)的public key。

(二)  在hadoop集群的master中用命令运行例子易出现的故障:

1. 错误现象:java.lang.OutOfMemoryError: Java heap space.

   原因:JVM内存不够。

   解决方法:修改mapred-site.xml中mapred.child.java.opts属性的值,其默认值是-Xmx200m 可根据需要适当增大 该值。

2. 错误现象:could only be replicated to 0 nodes, instead of 1

   解决方法:在NameNode上执行命令:hadoop namenode –format重新格式化HDFS,在格式化之前,需要将你  NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除,同时将各DataNode上的dfs.data.dir的路径DataNode存放块数据的本地文件系统路径的目录也删除。

3.  错误现象:namenode in safe mode.

    原因:hadoop进入安全模式。

    解决方法:在shell中执行命令hadoop dfsadmin -safemode leave 使hadoop离开安全模式。

(三)在windows下Eclipse中运行例子易出现的错误:

1. 错误现象:org.apache.hadoop.security.AccessControlException: Permission denied: user=administrator, access=EXECUTE, inode="job_201111031322_0003":heipark:supergroup:rwx-.

 原因:本地用户administrator(本机windows用户)想要远程操作hadoop系统,没有权限引起的。

 解决方法:

i、如果是测试环境,可以取消hadoop hdfs的用户权限检查。打开conf/hdfs-site.xml,找到dfs.permissions属性修改为false(默认为true)OK了。

ii、修改hadoop location参数,在advanced parameter选项卡中,找到hadoop.job.ugi项,将此项改为启动hadoop的用户名即可。

2.错误现象:IOException: Cannot run program "chmod": CreateProcess error=2.

  原因: 没有安装cygwin或 没有配置环境变量。
  解决方法:安装并配置环境变量 bin到 path下 重启 eclipse 问题即可。

3.  错误现象: WARN mapred.LocalJobRunner: job_local_0001
java.lang.OutOfMemoryError: Java heap space
at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<init>(MapTask.java:781)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:350)
………..

  原因:客户端程序运行时java虚拟机内存分配不够

  解决方法:修改run configuration,选择Arguments选项卡,在VM arguments栏中加入-Xmx1024m,保存即可解决问题。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Hadoop集群进不去可能是由于多种原因引起的。以下是一些常见的可能原因和解决方法: 1. 网络连接问题:首先,请确保您的网络连接正常,并且可以与Hadoop集群中的节点进行通信。您可以尝试使用ping命令来测试与集群中的节点的连接性。如果无法ping通节点,可能是网络配置或防火墙设置的问题,您可以检查网络配置和防火墙规则。 2. 节点状态问题:检查Hadoop集群中的节点是否正常运行。您可以使用Hadoop集群管理工具(如Ambari或Cloudera Manager)来监视节点的状态。如果有节点处于非正常状态,您可以尝试重启该节点或查看日志文件以获取更多详细信息。 3. 资源不足:如果Hadoop集群中的某个节点资源不足,可能会导致无法进入集群。请确保每个节点都具有足够的内存、磁盘空间和CPU资源来运行Hadoop任务。您可以使用Hadoop集群管理工具来监视资源使用情况,并根据需要进行调整。 4. 配置错误:检查Hadoop集群的配置文件是否正确设置。特别是检查core-site.xml、hdfs-site.xml和yarn-site.xml等关键配置文件,确保其中的参数值正确并与集群中其他节点保持一致。 5. 日志分析:查看Hadoop集群的日志文件,特别是NameNode和ResourceManager的日志,以获取更多详细信息。日志文件通常位于Hadoop安装目录的logs文件夹中。根据日志中的错误信息,您可以进一步确定问题所在并采取相应的解决措施。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小小哭包

创作不易,给作者加个鸡腿吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值