自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

最佳实践概述

应用场景

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行常见的ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。

技术架构

本实践方案基于如下图所示的技术架构和主要流程编写操作步骤。 

方案优势

  • 易用性 
    您可以简单选择所需ECS机型(CPU、内存)与磁盘,并选择所需的软件,进行自动化部署。
  • 经济性 
    您可以按需创建集群,即离线作业运行结束就可以释放集群,还可以在需要时动态地增加节点。
  • 深度整合 
    E-MapReduce与阿里云其它产品(例如,OSS、MNS、RDS 和 MaxCompute 等)进行了深度整合,支持以这些产品作为Hadoop/Spark计算引擎的输入源或者输出目的地。
  • 安全 
    E-MapReduce整合了阿里云RAM资源权限管理系统,通过主子账号对服务权限进行隔离。
  • 可靠性 
    使用阿里云数据库RDS保存Hive的元数据信息,可以提升数据可靠性和服务可用性,免除客户运维自建MySQL数据库的工作。

前置条件

在进行本文操作之前,您需要完成以下准备工作:

  • 注册阿里云账号,并完成实名认证。您可以登录阿里云控制台,并前往实名认证页面查看是否已经完成实名认证。
  • 阿里云账户余额大于100元。您可以登录阿里云控制台,并前往账户总览页面查看账户余额。
  • 拥有已经通过备案的域名。
  • 开通ECS、OSS、EMR、RDS、DTS和VPN网关等服务。

资源规划说明

  • 本方案仅作为实践演练使用,在生产环境中执行时请结合业务系统实际架构进行
    调整。
  • 本方案购买的所有云产品规格均为演示需要,请根据实际业务需求购买对应规格
    的产品和服务。
  • 本方案重在展示迁移思路和方法,线下IDC的模拟环境以组件配置呈现。

1. 基础环境搭建

本实践方案中,将按照技术架构图搭建相对完整的实践环境,包括Apache日志发生
器、Kafka队列、Hadoop集群、Hive+MySQL元数据库。 

1.1. 搭建Hadoop + Kafka + 日志发生器环境

请参考《自建Hadoop数据迁移到阿里云EMR》最佳实践
第1章:1. 自建Hadoop集群环境搭建,完成本实践方案的基础环境搭建。

1.2. 创建Hive元数据库

本实践方案将在ECS上安装MySQL数据库,用于保存Hive元数据信息。步骤1登录云服务器控制台,地域࿱

  • 23
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值