1.
处理
hadoop
的
datanode
宕机
cd path/to/hadoop
走到
hadoop
的
bin
目录
./hadoop-daemon.sh start datanode
./hadoop-daemon.sh start tasktracker
2.
处理
hadoop
的
namenode
宕机
./hadoop-daemon.sh start namenode
./hadoop-daemon.sh start tasktracker
3.
如果是新添加一个节点,需要执行以下步骤:
首先,
把新节点的
IP
或主机名
加入主节点
(
master
)
的
conf/slaves
文件。
然后登录新的从节点,执行以下命令:
$ cd path/to/hadoop
$ bin/hadoop-daemon.sh start datanode
$ bin/hadoop-daemon.sh start tasktracker
然后就可以在
master
机器上运行
balancer
,执行负载均衡
$bin/hadoop balancer
4.
处理
hbase
的
regionserver
宕机的办法
./hbase-daemon.sh start regionserver
./hbase-deamon.sh start zookeeper//
只针对有
zookeeper
的
regionserver
而且是机子需要重启的情况
5.
处理
hbase
的
master
宕机的办法
./hbase-daemon.sh start master
./hbase-daemon.sh start zookeeper//
可选
6.
完全重启整个集群的过程
首先是用
root
权限关闭所有节点的防火墙,
/etc/init.d/iptables stop
然后启动
hadoop
集群
来到
hadoop
的安装路径执行:
./start-all.sh
待到集群全部成功启动之后两分钟之后执行关闭
hadoop
文件系统的安全模式,
./hadoop dfsadmin -safemode leave
对于
hadoop
文件系统安全模式的解释,如下
NameNode
在启动的时候首先进入安全模式,
如果
datanode
丢失的
block
达到一定的比例
(
1-
dfs.safemode.threshold.pct
),则系统会一直处于安全模式状态即只读状态。
dfs.safemode.threshold.pct
(缺省值
0.999f
)表示
HDFS
启动的时候,如果
DataNode
上
报的
block
个数达到了
元数据记录的
block
个数的
0.999
倍才可以离开安全模式,否则一
直是这种只读模式。如果设为
1
则
HDFS
永远是处于
SafeMode
。
有两个方法离开这种安全模式
(
1
)修改
dfs.safemode.threshold.pct
为一个比较小的值,缺省是
0.999
。
(
2
)
hadoop dfsadmin -safemode leave
命令强制离开
用户可以通过
dfsadmin -safemode $value
来操作安全模式,参数
$value
的说明如下:
enter
–
进入安全模式
leave
–
强制
NameNode
离开安全模式
get
–
返回安全模式是否开启的信息
wait
–
等待,一直到安全模式结束。