集群迁移方案整理_hdp迁移emr-CSDN博客

本文链接：https://blog.csdn.net/lcm_linux/article/details/108040284

附录A：

    HDP集群间Distcp方案：https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.1/bk_administration/content/distcp_and_security_settings.html

    CDH集群间Distcp方案：https://www.cloudera.com/documentation/enterprise/5-11-x/topics/cdh_admin_distcp_data_cluster_migrate.html#concept_fx2_t1q_3x

附录B：

   HDP集群间Hive迁移方案：https://community.hortonworks.com/questions/91509/hive-backup-and-restore.html

   CDH集群间Hive迁移方案(BDR)：https://www.cloudera.com/documentation/enterprise/5-11-x/topics/cm_bdr_howto_hive.html

附录C：

   关于SQOOP 迁移Export Hive的一些讨论，没啥实质结论，都提供的Distcp和hive metastore backup恢复方案

   1. https://stackoverflow.com/questions/47388405/transfer-hive-tables-between-two-cloudera-hadoop-clusters-using-sqoop-import-exp

   2. https://stackoverflow.com/questions/31502364/sqoop-import-from-hive-to-hive

FusionInsight集群间Hive迁移案：
备份Hive数据
操作场景
前提条件
操作步骤

操作场景
为了确保Hive日常用户的业务数据安全，或者系统管理员需要对Hive进行重大操作（如升级或迁移等），需要对Hive数据进行备份，从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复，将对业务的影响降到最低。

该任务指导系统管理员通过FusionInsight Manager创建备份Hive任务。支持创建任务自动或手动备份数据。

Hive备份恢复功能不支持识别用户的Hive表、索引、视图等对象在业务和结构上存在的关联关系。用户在执行备份恢复任务时，需要根据业务场景管理统一的恢复点，防止影响业务正常运行。
Hive备份恢复功能不支持Hive on RDB数据表，需要在外部数据库中单独备份恢复原始数据表。
已创建的Hive备份任务且包含Hive on HBase表，如果本次备份任务在备集群的备份数据丢失，当下次执行增量备份时备份任务将失败，需要重新创建Hive的备份任务。若下次执行全量则备份正常。

前提条件
需要准备一个用于备份数据的备集群，模式需要与主集群相同，请参见《软件安装》。
如果主集群部署为安全模式，主备集群必须已配置跨集群互信，请参见1. FI配置跨集群互信。如果主集群部署为普通模式，不需要配置跨集群互信。
主备集群必须已配置跨集群拷贝，请参见2. FI启用集群间拷贝功能。
主备集群上的时间必须一致，而且主备集群上的NTP服务必须使用同一个时间源。
根据业务需要，规划备份任务的类型、周期、备份对象、备份目录和备份任务需要使用的YARN队列等策略规格。
检查备集群HDFS是否有充足的空间，备份文件保存的目录建议使用用户自定义的目录。
使用HDFS客户端，以“hdfs”用户执行hdfs lsSnapshottableDir检查当前集群中已创建HDFS快照的目录清单，确保待备份的数据文件所在HDFS路径的父目录或子目录不存在HDFS快照，否则无法创建备份任务。
登录FusionInsight Manager，请参见登录管理系统。

操作步骤
在FusionInsight Manager，选择“系统设置 > 备份管理”。
单击“创建备份任务”。
在“任务名称”填写备份任务的名称。
在“备份类型”选择备份任务的运行类型，“周期备份”表示按周期自动执行备份，“手动备份”表示由手工执行备份。

创建周期备份任务，还需要填写以下参数：

“开始时间”：表示任务第一次启动的时间。
“周期”：表示任务下次启动，与上一次运行的时间间隔，支持“按小时”或“按天”。
“备份策略”：表示任务每次启动时备份的数据量。支持“首次全量备份，后续增量备份”、“每次都全量备份”和“每n次进行一次全量备份”。选择“每n次进行一次全量备份”时，需要指定n的值。

在“备份配置”，勾选“Hive”。
在“路径类型”，选择“RemoteHDFS(DistCp)”。
在“目的端NameNode IP地址”填写备集群NameNode业务平面IP地址，支持主节点或备节点。
在“目的端路径”填写备集群保存备份数据的HDFS目录。不支持填写HDFS中的隐藏目录，例如快照或回收站目录；也不支持默认的系统目录，例如“/hbase”或“/user/hbase/backup”。
在“最大备份数”填写备份目录中可保留的备份文件集数量。

已备份的文件集数量大于“最大备份数”参数值时，默认保留最新的文件。

在“队列名称”填写备份任务执行时使用的YARN队列的名称。需和集群中已存在且状态正常的队列名称相同。
在“最大恢复点个数”填写备份任务在本集群中备份可保留的快照数量。
在“备份对象”中，选择一个或多个需要备份的Hive表。

支持两种方式选择备份数据：

直接选择
单击导航中某个数据库的名称，将展开显示此数据库中的所有表，勾选指定的表。

正则表达式筛选
单击“正则表达式输入”。
根据界面提示，在第一个输入框填写Hive表所在的数据库，需要与当前存在的数据库完全匹配。例如“defalut”。
在第二个输入框输入正则表达式，支持标准正则表达式。例如要筛选数据库中所有的表，输入“([\s\S]?)”。例如要筛选命名规则为字母数字组合的表，如tb1可输入“tb\d”。
单击“刷新”，在“目录名称”查看筛选的表。
单击“同步”保存筛选结果。
说明：
输入正则表达式时，可以使
用
The 4th Platform > 3. FI集群Hive数据迁移方案 > image2018-11-6_11-45-56.png 和
增加或删除一条表达式。
如果已选择的表或目录不正确，可以单击“清除选中的节点”清除勾选。