hadoop生态圈-- 个人笔记学习04 数据迁移

数据迁移场景

  • 冷热集群数据同步、分类存储
  • 集群数据整体迁移
  • 准实时同步
    • 双备份
    • 线上把集群切向B的同步集群

要素考量

  1. bandwdith
  2. performance
    1… 单机?分布式?
  3. data-increment
    1. 可以配合HDFS快照等技术实现增量数据同步。
  4. syncable .数据指定周期内未完成同步,下一周期开始,无法做到 准实时一致性

DistCp

数据迁移,定期在集群之间、内部备份数据 —— 性能相对慢。

使用MapReduce在群集之间或并行在同一群集内复制文件

  • 构建复制的文件列表 —— 复制列表
  • 运行MR作业来复制文件,复制列表为输入
    DistCp又是特性
  • bandwidth限流,防止数据占用大量bandwidth性能下降
  • DistCp使用update,append,diff三个参数增量同步
namefunction
update拷贝不存在的文件目录 —— 新增文件。目录同步
Append追加写路径已存在的文件
Diff快照的Diff对比信息同步源路径和目标路径(删除 重命名)

安全模式

hdfs的safe mode是NameNode维护状态,该模式下NameNode不能更改

  1. 从fsimage和edits日志文件加载文件系统状态
  2. 等待DN汇报可用的block信息,在此期间,NN保持在安全模式。
  3. 系统大胆安全标准,HDFS自动离开安全模式

阶段

DFS集群启动,NN启动成功,集群进入安全模式

离开:
dfs.replication hdfs block的副本数据,默认3
dfs.replication.max 最大副本数 512
dfs.namenode.replication.min 最小块副本数,默认1
dfs.namenode.safemode.threshold-pct
已汇报可用数据块数量占整体块数量的百分比阈值。默认0.999f。
小于或等于0,则表示退出安全模式之前,不要等待特定百分比的块。大于1的值将使安全模式永久生效。

dfs.namenode.safemode.min.datanodes
指在退出安全模式之前必须存活的DataNode数量,默认0
dfs.namenode.safemode.extension
达到阈值条件后持续扩展的时间。倒计时结束如果依然满足阈值条件,自动离开安全模式。默认30000毫秒

手动获取安全模式信息

hdfs dfsadmin -safemode get

手动进入安全模式

hdfs dfsadmin -safemode enter

对于集群维护或者升级的时候使用,只读

手动离开安全模式

hdfs dfsadmin -safemode leave
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值