记一次替换Hadoop/HDFS/HBASE的磁盘

猿憨憨

已于 2022-02-11 09:59:24 修改

阅读量2.1k

点赞数 1

分类专栏：大数据文章标签： hadoop hbase hdfs 运维

于 2021-11-24 14:25:49 首次发布

本文链接：https://blog.csdn.net/a1265262132/article/details/121511650

版权

5 篇文章 1 订阅

订阅专栏

近几个月业务增长很快，数据量也大幅增长，但是存储数据的磁盘眼看就要满载，因此需要迁移数据，并且要满足以下几个需求：

参考了(百度了）很多资料后的解决思路：
利用Hadoop副本的机制，集群的副本数是3，先停一个节点的datanode，因为其他两个副本都在其他节点上，不影响hadoop的正常运行，然后修改datanode的磁盘存储目录重启，最后进行副本补全，等副本100%补全后进行下一台节点的磁盘替换。

 <property>
  <name>dfs.datanode.data.dir</name>
  <value>file:///xdata/hadoop/hdfs/data</value>
</property>

启动datanode hadoop-daemon.sh start datanode
检验磁盘是否成功替换：http://ip:50070
运行Hadoop sbin目录下start-balancer.sh脚本, 重新平衡数据，执行完后不断刷新上面的页面就会发现新磁盘的占用量不断上升。默认同步较慢，可以重新设置带宽提高迁移速度。

hdfs dfsadmin -setBalancerBandwidth 67108864
sbin/start-balancer.sh -threshold 5

通过观察http://ip:50070/fsck这个网页来确保副本是否同步完成，ip如果高可用是活跃节点的ip，如果访问页面打印的日志中某个目录被拒绝访问，就执行hdfs dfs -chmod -R 755 目录给这个目录授权，同步较慢，可以在start-balancer.sh后面添加相应的参数提高执行效率，直到网页的所有副本同步完成，即下图的平均副本数达到3。
等上面数据恢复完后替换下一个节点的磁盘，重复上面的步骤。
待验证的问题，迁移过程能不能进行hdfs的正常读写使用，会不会造成hbase数据不一致。

关注