CDH迁移 | 教你三步实现CDH迁移到星环TDH

本文介绍了如何通过Transwarp Backup (TBAK) 实现CDH到星环TDH的平滑迁移。首先,详细展示了TDH的多模型技术架构和应用场景,然后通过三步(配置CDH和TDH集群、创建迁移方案、执行迁移任务和结果检查)演示了具体迁移过程,确保数据处理流程的无缝对接。
摘要由CSDN通过智能技术生成

Transwarp Data Hub(TDH) 是星环科技自主研发的企业级一站式多模型大数据基础平台,其领先的多模型技术架构提供统一的接口层,统一的计算引擎层,统一的分布式存储管理层,统一的资源调度层,以及异构存储引擎层。8种异构存储引擎可以支持包括关系表、文本、时空地理、图数据、文档、时序等在内的10种数据模型。存算解耦特性支持弹性扩展,让资源配置更灵活。

星环一站式多模型大数据基础平台TDH架构图

TDH能够存储PB 级别的海量数据,同时能够提供高性能的查询搜索、实时分析、统计分析、预测性分析等数据分析功能,被广泛应用在离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、图存储分析、空间数据存储、实时数据处理等各类大数据业务场景。

目前 TDH 已经在政府、金融、能源、制造业等十多个行业内落地,可以替代Oracle、IBM DB2、Teradata等传统主流数据库在分析型场景中的应用及替代CDH在大数据平台的应用,帮助企业,更全面、更便捷、更智能、更安全地运用数据,加速企业数字化转型。

TDH的存储与计算组件兼容CDH/HDP,可以实现平滑迁移,大大降低企业迁移成本低。专业的迁移工具实现数据一键迁移,高效便捷。此外,星环科技已经有大量的迁移成功案例,经验丰富,保障整个迁移过程安全可靠。

本文将基于某金融机构的数据仓库批处理场景来手把手带领大家“三步”完成 CDH到星环TDH的平滑迁移。

CDH集群及业务场景

某金融机构基于CDH构建了离线数仓和对客高并发查询业务,完整业务场景包括:

数据抽取,通过Sqoop基本从业务数据库中抽取数据到分布式文件HDFS;

数据加载,通过Shell脚本将数据Load到离线数仓Hive中,保存为orc格式;

数据加工,通过Hive脚本做数据离线批处理加工,支撑营销、风控等业务;

对客查询,部分结果load到HBase对客提供高并发查询服务;

实际客户场景涉及数千张表和脚本,百TB级别数据量,这里我们对其中完整逻辑做了抽象,精简的过程便以理解迁移过程。

CDH集群信息

硬件信息

节点数

3

CPU

40核/节点

内存

256G/节点

磁盘

12*1.7T/节点

软件信息

软件

版本

CDH

V6.2.1

Hive

V2.1.1

Hbase

V2.1.2

Hadoop

V3.0.0

Sqoop

V1.99.5

CDH数据处理流程

数据抽取(模拟数据ETL

用Sqoop工具从业务数据库抽取数据到Hive表。

批处理数据(模拟数据加工)

在Hive中执

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值