hadoop配置遇到的问题(更新中)

先推荐一个超级棒的教程:厦门大学大数据实验室
Hadoop官方文档:Apache Hadoop
Spark安装和测试:Spark快速入门指南 – Spark安装与基础使用
Spark集群分布的配置:Spark 2.0分布式集群环境搭建


0.cetos6.0安装软件时get-apt命令不可用

红帽系列用yum命令安装软件

1.在别人之前配置过的机器上重新配置的时候,datanode无法启动(通过jps查看)无法创建datanode这个文件夹,也不生成datanode的目录。

解决:检查从属机的配置(就是[root@Myhostname hadoop]# vim ./etc/hadoop/),把那些找不到的node都注释掉,留下一个本机的节点。然后删掉hdfs配置的tmp目录(放nodename和dataname的),格式化,重启,jps,OK。

注意:遇到问题之后,先把log全删掉,然后一点点检查配置和log。

2.搭好环境然后运行grep命令做测试时,报错“org.apache.Hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode ”

解决:只要在Hadoop的目录下输入: bin/hadoop dfsadmin -safemode leave

参考:Hadoop 解除 “Name node is in safe mode”
拓展阅读: hadoop安全模式(偏重解决问题)
Hadoop安全模式详解及配置(这里有相关配置的详解)
重点:dfs.namenode.safemode.threshold-pct(退出安全模式的门槛)参数的意思是指定达到最小副本数的数据块的百分比。这个门槛越低,就越容易退出安全模式。当他的值设置为小等于0表示无须等待就可以退出安全模式;而如果这个值大于1表示永远处于安全模式(因为它让所有文件100%的被保存)。

3.伪分布模式下,运行命令 (./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output ‘dfs[a-z.]+’),报错“ Input path does not exist:”:

报错信息:org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist: hdfs://hw224:9000/usr/local/hadoop/input

解决:因为上面的单机模式,grep 例子读取的是本地数据,伪分布式读取的则是 HDFS 上的数据。HDFS上文件和目录的创建以及访问的命令是不同于单机上创建方法的。就是说要使用 HDFS,首先需要创建用户目录 bin/hdfs dfs -mkdir -p /user/hadoop,然后再。。(见教程伪中分布配置)

解释:单机模式中,grep 例子读取的是本地数据,伪分布式读取的则是 HDFS 上的数据。

参考:解决方法配置教程

4.dataNode无法启动:日志报错信息为java.io.IOException: Incompatible clusterIDs——不相容的集群ID

解决:(统一namenode和nodename文件夹下VERSION文件里的clusterIDs)

步骤:
1. 在namenode上,{dfs.namenode.name.dir}/current/VERSION里找到clusterID ( {dfs.namenode.name.dir}在hdfs-site.xml里定义, 下同 )
2. 在出问题的datanode上, ${dfs.namenode.data.dir}/current/VERSION 里找到clusterID, 用步骤1中得到的clusterID覆盖之。
3. 在问题节点上重启datanode.

参考:hadoop异常: 到目前为止解决的最牛逼的一个异常(java.io.IOException: Incompatible clusterIDs)
补充:datanode无法启动的另一个原因——namespaceID不一致

4.怎么查看HDFS的文件目录及其他操作

参考:hadoop HDFS常用文件操作命令
拓展阅读:Hadoop HDFS 详解(包括架构,namenode,namespace等等)

5.分布式提交作业出错:

报错信息:org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1503127183717_0003 to YARN : Application application_1503127183717_0003 submitted by user root to unknown q
ueue: default

解决:这个是因为作业提交到名叫“default”的队列中去了,那么先找到相应的调度方式对应的配置文件(这里是容量调度。所以是capacity.xml里把一个队列名改成default,嗯。。略微简单粗暴了些)
参考:关于yarn队列设置以及权限访问

6.关于yarn的调度方式

参考:[YARN Capacity Scheduler]
简介(有图,右侧有博主更多相关文章)](http://debugo.com/yarn-scheduler/)

7.yarn管理界面点击Tracking UI下的History链接提示无法链接

尚未解决,参考:https://www.iteblog.com/archives/936.html

8.如何命令行从网址上下载软件(如scala)?

执行命令:
curl http://d3kbcqa49mib13.cloudfront.net/spark-0.8.1-incubating-bin-hadoop2.tgz -o ./scala/scala.tgz -k

9.scala执行报错:error: not found: value sqlContext

解决:sqlContext前加上”spark.”,即执行语句变成spark.sqlContext.read.json("file:///usr/local/spark/examples/src/main/resources/people.json")

10.scala结束输入:ctrl+D
11.centos安装wget命令

yum -y install wget

x.补充备用yarn集群部署,遇到的问题小结(界面很乱)


                                     以下是非hadoop相关问题

4. vim按了Ctrl + s后假死的解决办法

解决:按ctrl+q

参考:vim按了Ctrl + s后假死的解决办法

5.命令行下按了’\’无法结束输入怎么办

解决:输入成对的”“或者”符号

5.使用gedit出现No protocol specified (gedit:14333): Gtk-WARNING : cannot open display: :0.0**

解决:执行命令sudo xhost +
(这个没解决)

6.远程桌面退出全屏/不能全屏/全屏切换的技巧退出全屏

解决:按下“Ctrl+Alt+Break”组合键
参考:远程桌面退出全屏/不能全屏/全屏切换的技巧

7./user/local和/opt的区别

问题:我们把hadoop安装在usr/local下,却把kvm的存储目录放在/opt下,为什么?

回答:
/usr:系统级的目录,可以理解为C:/Windows/,/usr/lib理解为C:/Windows/System32。
/usr/local:用户级的程序目录,可以理解为C:/Progrem Files/。用户自己编译的软件默认会安装到这个目录下。
/opt:用户级的程序目录,可以理解为D:/Software,opt有可选的意思,这里可以用于放置第三方大型软件(或游戏),当你不需要时,直接rm -rf掉即可。在硬盘容量不够时,也可将/opt单独挂载到其他磁盘上使用。

8.虚拟机的网络连接模式

参考:VMware中三种网络连接的区别(有网络拓扑图)
虚拟机网络模式(有IP分配例子,文字讲解清晰)

9.什么是KVM?作用?

KVM是开源软件,全称是kernel-based virtual machine(基于内核的虚拟机)。 是x86架构且硬件支持虚拟化技术(如intel VT 或 AMD-V)的Linux全虚拟化解决方案。

它包含一个为处理器提供底层虚拟化可加载的核心模块kvm.ko(kvm-intel.ko或kvm-AMD.ko)。

KVM还需要一个经过修改的QEMU软件(qemu-kvm),作为虚拟机上层控制和界面。

KVM能在不改变linux或windows镜像的情况下同时运行多个虚拟机,(它的意思是多个虚拟机使用同一镜像)并为每一个虚拟机配置个性化硬件环境(网卡、磁盘、图形适配器……)同时KVM还能够使用ksm技术帮助宿主服务器节约内存。

10.什么是虚拟机?

虚拟机(Virtual Machine)指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。

我的理解:在自己本来的系统里(Windows,linux等),再模拟出一个计算机。你可以给这个虚拟机装上系统(使用镜像去装),不装系统的虚拟机是没有用的,因为虚拟机只是提供了一个执行环境,裸机状态。

参考:百度百科

11.如何杀死进程?

解决:# kill -s 9 1827

其中-s 9 制定了传递给进程的信号是9,即强制、尽快终止进程。
1827则是上面ps查到的火狐的PID。

参考:【转】linux下杀死进程(kill)的N种方法

12.centos关闭防火墙命令

解决: CentOS 6.5关闭防火墙
[root@localhost ~]#servcie iptables stop –临时关闭防火墙 、
[root@localhost ~]#chkconfig iptables off –永久关闭防火墙

centos7:systemctl status firewalld.service

参考:CentOS6和CentOS7防火墙的关闭(有点乱)

13.理解 Linux 的硬链接与软链接
i14.fconfig不显示eth0而是eth1,但是/etc/sysconfig/network-scripts/里却有相应文件

参考:Linux的网卡由eth0变成了eth1,如何修复?


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值