使用Azure Data Factory优雅的迁移SQL Server 2000 DTS包

34 篇文章 1 订阅
15 篇文章 1 订阅

简介

最近搞了一个好玩的项目,客户的数据库从SQL Server 2000迁移到 Azure SQL 。数据库数据迁移并不是难事,关键客户环境好玩的是使用了50多个DTS包,DTS包是比较古老的产品。很多人估计都没见过了,DTS其实是 SSIS的前生,DTS功能就是实现ETL的过程。

客户的50多个包实现各种数据的复制、转换和集成。

Azure Data Factory 介绍

Azure 数据工厂是 Azure 的云 ETL 服务,用于横向扩展无服务器数据集成和数据转换。 它提供了无代码的 UI,以用于直观创作和集中式监视与管理。 还可以将现有 SSIS 包直接迁移到 Azure,并在 ADF 中运行它们(二者完全兼容)。 SSIS Integration Runtime 提供完全托管的服务,因此无需担心基础结构管理。

一直以为Azure Data Factory 没啥好玩的,直到最近搞这个项目,才发现 Azure Data Factory 也还是有点意思。

但是 Azure Data Factory 与想象中也有点不一样,从实战中有点感悟,总结总结。

目前的Azure Data Factory 有几大组件:

  • 管道

  • 活动

  • 数据集

  • 链接服务

  • 数据流

  • 集成运行时

这几大组件中最难搞的是 :集成运行时 ,其他理解起来都还是很顺,一会详解

项目说明
管道管道是执行任务单元的活动的逻辑分组。 管道中的活动可以共同执行一项任务; 管道理解为了实现一个功能或者一项活动的分组。每个管道可以包含无数的活动,每个活动一般具备流程关系,一步步进行。
活动活动是具体的每个步骤,某个需要进行的功能的实现。
数据集数据集代表数据存储中的数据结构,这些结构直接指向需要在活动中使用的数据,或者将其作为输入或输出引用。
链接服务链接服务十分类似于连接字符串,用于定义数据工厂连接到外部资源时所需的连接信息。 不妨这样考虑:链接服务定义到数据源的连接,而数据集则代表数据的结构。 例如,Azure 存储链接服务指定连接到 Azure 存储帐户所需的连接字符串。 另外,Azure Blob 数据集指定 Blob 容器以及包含数据的文件夹。
集成运行时集成运行时(IR)是由 数据工厂 使用的计算基础结构,用来跨不同网络环境提供数据集成功能。 Azure Integration Runtime 可用于通过可公开访问终结点连接到公用网络中的数据存储和计算服务。 对专用网络/本地网络使用自承载集成运行时。

项目步骤

这次项目中是迁移SQL Server2000 的DTS 。

第一步:是将SQL 2000数据库 迁移到 SQL 2008 R2

第二步:然后迁移到了Azure SQL Database

第三步:将SQL 2000 的DTS迁移到 Azure Data Factory

由于 SQL 2000的DTS 是很古老的东西,然后又很复杂,比如可能是这样的

这个包共有8个步骤,而最复杂的包有17个步骤,由于DTS是可以嵌套包,也就是17个步骤里面有很多步骤嵌套包,也就是说步骤总部加起来就会有至少70~80个步骤。

使用Azure Data Factory 就相当于把每个步骤在Azure Data Factory上重新编写。

关键过程

链接服务

Azure Data Factory的关键配置有:

  • 链接服务

  • 集成运行时

新建链接服务:

需要选择需要链接的服务类型

选择类型后,在配置界面需要:配置集成运行时,这里才是最困难的。

集成运行时

点击新建集成运行时,有几种可选,

大分类

1、Azure ,自承载

大概我理解在使用中,链接Azure 云使用 Azure集成运行时,而内网和专用网络 需要使用 自承载运行时。选择自承载运行时,大坑来了。。。

需要在本地网络中安装一台服务器来运行集成运行时。惊不惊喜,意不意外。这个鬼东西就相当于一个datagateway。。。前面文档中就没有看到有这样的描述。也就是说本来客户是迁移一个老旧服务器到PaaS的平台,这倒好,还要搭上一台新服务器专门做集成服务。

2、Azure-SSIS

选择 Azure-SSIS,本来另外一种方案是将DTS包转换为SQL 2008R2 SSIS ,然后直接部署到Azure-SSIS运行,到这里发现几个问题

  • SSIS转换后的包基本不可用,因为链接的对象都变成了Azure SQL,和之前完全不一样。没有办法兼容使用

  • SSIS的收费确实比较喜人~~

数据集创建

创建好链接服务、集成运行时,就需要创建数据集,从某角度讲,所有数据的迁移和转换等各种过程,都是从一个数据集到另外一个数据集,数据集可以理解为特殊的数据表,可以是实体表、虚拟表、视图,查询等

有了集成服务后、创建链接服务,就可以进行管道创建,在此案例中,可以看到数据集创建了135个,也就是中间进行数据转换使用等过程中使用到了135个数据集。

创建数据集

选择数据集类型

选择相应的连接服务,就可以选择相应的数据库的表,如果需要执行查询,可以随意选择一个数据表,在复制过程中去设置查询语句

管道创建

新建管道,界面如下:

管道就是由许多的活动组成,在左侧可以看到可以进行的活动。

利用这些活动可以进行相应的数据各种活动。

举个例子:

像这个管道里面,执行了17个活动,包括了很多复制 和很多存储过程的执行。

创建触发器

管道创建好后需要执行,执行办法就是创建触发器。

监视

管道执行过程可以在监视中看到

管道调试过程中也可以看到,需要在管道调试的时候点击详细可以看到运行的详细情况:

其他

Azure Data Factory与DevOps进行集成,也就是编写管道随时可以进行保存,也可以回溯。非常方便。

另外 ADF还有很多功能未曾使用,目前看来功能还是可以,在进行日常的ETL过程是够用的。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿特

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值