自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

知秋的一叶

于 2024-02-18 18:50:22 发布

阅读量932

点赞数 23

文章标签：数据仓库 hive 阿里云 mapreduce hadoop

本文链接：https://blog.csdn.net/weixin_33021323/article/details/136157372

版权

客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统，同时借助Hive进行常见的ETL任务。客户在决策上云之后，会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。

本实践方案基于如下图所示的技术架构和主要流程编写操作步骤。

易用性
您可以简单选择所需ECS机型(CPU、内存)与磁盘，并选择所需的软件，进行自动化部署。
经济性
您可以按需创建集群，即离线作业运行结束就可以释放集群，还可以在需要时动态地增加节点。
深度整合
E-MapReduce与阿里云其它产品(例如，OSS、MNS、RDS 和 MaxCompute 等)进行了深度整合，支持以这些产品作为Hadoop/Spark计算引擎的输入源或者输出目的地。
安全
E-MapReduce整合了阿里云RAM资源权限管理系统，通过主子账号对服务权限进行隔离。
可靠性
使用阿里云数据库RDS保存Hive的元数据信息，可以提升数据可靠性和服务可用性，免除客户运维自建MySQL数据库的工作。

在进行本文操作之前，您需要完成以下准备工作：

本实践方案中，将按照技术架构图搭建相对完整的实践环境，包括Apache日志发生
器、Kafka队列、Hadoop集群、Hive+MySQL元数据库。

1.1. 搭建Hadoop + Kafka + 日志发生器环境

请参考《自建Hadoop数据迁移到阿里云EMR》最佳实践
第1章：1. 自建Hadoop集群环境搭建，完成本实践方案的基础环境搭建。

1.2. 创建Hive元数据库

本实践方案将在ECS上安装MySQL数据库，用于保存Hive元数据信息。步骤1登录云服务器控制台，地域࿱

关注