如何从Teradata迁移到Greenplum(上篇)

本文详细阐述了从Teradata迁移到Greenplum的原因、可行性及迁移流程,包括数据卸载规范、DDL导出及转换规则,为数据库迁移提供了全面指导。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我们在之前的文章中介绍了如何从Oracle迁移到Greenplum。与Oracle迁移类似,作为在世界范围内有广泛用户的数据仓库产品,在综合评估了多种因素后,Teradata的很多用户选择迁移到Greenplum。我们将从为什么迁移如何迁移两个层面来讨论如何从Teradata迁移到Greenplum。

 

1、Teradata产品和用户面临的问题


Teradata公司成立于1979年,主要为客户提供三种服务:基于云和硬件的数据仓库、业务分析和咨询服务。Teradata在1983年推出其首个数据库产品,并为数据仓库市场输送了大量的人才,之后很长一段时间内一直处于数据分析领域市场领导者的地位。
国内很多大型商业银行的数据仓库系统都是基于Teradata进行构建的。到2005年前后,随着Intel x86 64位处理器的发布,基于x86架构的服务器在企业里开始承担越来越多的计算工作,而Teradata一直固守其一体机架构,造成越来越多的企业难以承受其高昂的硬件成本和扩容维护费用。另一方面,用户的数据越来越多,业务对数据仓库的响应时间要求越来越短,而Teradata中存在读写互相阻塞的问题,无法满足业务的需求。面对这一矛盾,很多公司都在考虑如何更好地建设数据仓库以满足当前及未来一段时间的业务增长需求,甚至有用户想借此机会搭建新一代数据平台,在提供Teradata原有功能的同时,可以整合不同业务单元的数据,实现更加多元的业务能力。
在选择新的数据平台和Teradata的替代方案时,用户往往非常慎重,通常会从多个维度对市面上众多常见的商业和开源产品进行全方位的评估,包括功能、性能、高可用、可扩展性、开放性、数据加载速度、跨云跨平台能力、与第三方工具的集成能力、监控管理特性和总体成本等。用户期望寻找成本更低、更开放、功能和性能同样强大的替代方案。大量用户最终选择了Greenplum,并认同Greenplum是替代Teradata的最佳产品。
 

2、 从Teradata迁移到Greenplum的可行性


熟悉数据产品的读者大多了解,Teradata和Greenplum都属于MPP数据库,这一架构上的相似性意味着从Teradata迁移到Greenplum是个非常自然的过程。熟悉Teradata的用户可以快速掌握Greenplum。同时,两者的语法非常接近、生态系统高度重合,这也极大地降低了迁移的难度和过程,使得Greenplum成为Teradata理想的替代产品。另外一方面,Greenplum相比Teradata更加开放,产品基于PostgreSQL完全开源,不需要专有硬件,大大降低了数据仓库构建的软硬件成本。

03d48293-f1ef-41ea-825d-9d95a1a83ac1.png

Teradata架构

 

上图给出了Teradata的架构,可以看出,Teradata同样采用无共享(Shared Nothing)大规模并行处理( MPP)架构。主要包括解析引擎(Parsing Engine,PE)、计算引擎 (Access Module Processor,AMP)、消息通信层 (Bynet)三个模块。其中PE模块相当于Greenplum的 master节点,负责处理用户连接、SQL的解析、分发和最终查询结果的输出;AMP模块 相当于Greenplum 的segment节点,负责具体数据的计算工作;Bynet模块相当于Greenplum的interconnect部分,负责整个网络的通信和数据在不同节点的传输。此外,VDisk相当于Greenplum segment节点的本地存储。可见,Teradata在架构上和Greenplum基本一致,主要区别是在其对应的硬件部分,如Bynet是专门的硬件网络设备,VDisk部分对应的底层存储一般是通过共享存储划分逻辑单元号(LUN)的方式实现。

因为Greenplum和Teradata在架构上相似,且都支持ANSI SQL标准,因此两个产品中大量语句的语法都一致或者高度相似,即使有不一样的语法或者概念,也能在另一个产品中找到对应的语法或者概念。例如,对于create table命令,两者的语法基本一样;如果创建表时划分分区,两者都使用partition by。但对于数据分布的控制,Teradata使用primary index, 而Greenplum使用distributed by。对于大多数Teradata特有的概念和语法,迁移到Greenplum时可以忽略,极个别的情形下需要加以改写。

Greenplum和Teradata在工具链和生态系统上也存在着许多相似性。如下表所示,Teradata中常用的库和工具在Greenplum都有对应的使用方式和工具。所有常见的BI工具都同时内置支持Teradata和Greenplum。所以,使用商业智能(BI)工具的用户在迁移后依然可以使用自己熟悉的工具。

 

类型

Teradata

Greenplum

迁移说明

ODBC/JDBC

支持

支持

 

_

BI前端展现

工具

支持所有BI前端工具

支持所有BI前端工具

通过ODBC或JDBC标准访问DW,改动量很小或没有;

LOAD工具

fastload/ multiload/ tpump等

外部表导入、COPY等工具

采用工具对ETL脚本使用到的部分
批量自动修改

UNLOAD工具

fastexport等

外部表导出、COPY等工具

采用工具对ETL脚本使用到的部分
批量自动修改

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值