PolarDB-X最佳实践系列(二):如何使用DataWorks将数据同步到MaxCompute

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

insert into t1 select null,rand()*20000,now() from t1;
insert into t1 select null,rand()*20000,now() from t1;
insert into t1 select null,rand()*20000,now() from t1;
insert into t1 select null,rand()*20000,now() from t1;
insert into t1 select null,rand()*20000,now() from t1;
insert into t1 select null,rand()*20000,now() from t1;
insert into t1 select null,rand()*20000,now() from t1;
insert into t1 select null,rand()*20000,now() from t1;
insert into t1 select null,rand()*20000,now() from t1;
insert into t1 select null,rand()*20000,now() from t1;
insert into t1 select null,rand()*20000,now() from t1;


### 创建数据源


为了让DataWorks能读取PolarDB-X的数据,需要创建一个数据源。


1.进入DataWorks控制台,选择**数据集成**:



![](https://img-blog.csdnimg.cn/img_convert/81bd0cd6bf822e04fd0b35d695382f3e.webp?x-oss-process=image/format,png)


2.点击左边的**数据源**:



![](https://img-blog.csdnimg.cn/img_convert/16747fc37bf32f046a9a588ac5969064.webp?x-oss-process=image/format,png)


3.点击右上角**新增数据源**:



![](https://img-blog.csdnimg.cn/img_convert/2e1dc511af57e2c060e7d70701da3d25.webp?x-oss-process=image/format,png)


4.选择**DRDS**:



![](https://img-blog.csdnimg.cn/img_convert/8711f78408305782e897b801ec9c864d.webp?x-oss-process=image/format,png)



5.数据源类型选择**连接串模式**,将PolarDB-X实例的内网地址拼在JDBC URL中,并测试连通性通过:



![](https://img-blog.csdnimg.cn/img_convert/24708ab97d66d008330ebf85e3949f7e.webp?x-oss-process=image/format,png)


**注意,这里前提了已经有了独享数据集成资源组,并已打通了与该PolarDB-X实例之间的网络。如果未满足该前提,需要先额外完成下面的支线任务:**


#### 支线:创建独享数据集成资源组并打通网络


1.在没有**独享数据集成资源组**的情况下,需要先创建一个**独享数据集成资源组**:



![](https://img-blog.csdnimg.cn/img_convert/0a106e7d738643e5d50332595ac5a74a.webp?x-oss-process=image/format,png)


2.将该独享数据集成资源组的网络与我们的PolarDB-X实例打通,操作入口地址:


[阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台]( )


3.点击网络设置:



![](https://img-blog.csdnimg.cn/img_convert/8fd7a00304b383334562caa81687cd72.webp?x-oss-process=image/format,png)


4.点击新增绑定:



![](https://img-blog.csdnimg.cn/img_convert/1b00dd98119a896507a114abc8bc585d.png)


5.选择PolarDB-X实例对应的网络信息,重点是专有网络、可用区、交换机。安全组暂不明实际意义,可以随便选一个。



![](https://img-blog.csdnimg.cn/img_convert/615cd3a32a878fee99f4cb5c80920ac5.webp?x-oss-process=image/format,png)



6.记录绑定网络后,该资源组的交换机网段:



![](https://img-blog.csdnimg.cn/img_convert/f5d37800f4913ff2262f1a68a97a3451.webp?x-oss-process=image/format,png)



7.在PolarDB-X控制台上,将上面记录的网段添加到白名单中:



![](https://img-blog.csdnimg.cn/img_convert/fbe7a98aa3a8a0971d65476036d8d414.webp?x-oss-process=image/format,png)



![](https://img-blog.csdnimg.cn/img_convert/712973421989bf1f8b4dc02f38468377.webp?x-oss-process=image/format,png)


image.png



8.注意,更复杂的网络模型(例如跨账号等),请参考DataWorks官方文档提供的各种解决方案。


#### 创建同步任务


这里以创建一个“一次性全量同步到MaxCompute任务”为例。


1.在同步任务菜单中,点击**新建任务**:



![](https://img-blog.csdnimg.cn/img_convert/d69348d067a4b19989ccccd9394ccf33.webp?x-oss-process=image/format,png)


2.数据来源选择**DRDS**,数据去向选择**MaxCompute**,同步方案选择“整库离线同步至MaxCompute(一次性全量)”,点击下一步:



![](https://img-blog.csdnimg.cn/img_convert/bc92a877808c600a2224fd14b7b609d8.webp?x-oss-process=image/format,png)


3.选择之前创建的数据源、资源组,以及MaxCompute的信息,并测试通过连通性:



![](https://img-blog.csdnimg.cn/img_convert/5235ee47a7240f2cf8f164237378a0c5.webp?x-oss-process=image/format,png)




![img](https://img-blog.csdnimg.cn/img_convert/37be2ee7d7c39b528be59b26d569eff9.png)
![img](https://img-blog.csdnimg.cn/img_convert/a775db33a3bcf444bc5c966c9b06748f.png)
![img](https://img-blog.csdnimg.cn/img_convert/32300ec50133cc7d9e0ccc7df25216f2.png)

**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!**

**由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**

**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)**

系化!**

**由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**

**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)**

一、项目简介 本项目教程以国内电商巨头实际业务应用场景为依托,同时以阿里云ECS服务器为技术支持,紧跟大数据主流场景,对接企业实际需求,对电商数仓的常见实战指标进行了详尽讲解,让你迅速成长,获取最前沿的技术经验。 、项目架构 版本框架:Flume、DateHub、DataWorks、MaxCompute、MySql以及QuickBI等; Flume:大数据领域被广泛运用的日志采集框架; DateHub:类似于传统大数据解决方案中Kafka的角色,提供了一个数据队列功能。对于离线计算,DataHub除了供了一个缓冲的队列作用。同时由于DataHub提供了各种与其他阿里云上下游产品的对接功能,所以DataHub又扮演了一个数据的分发枢纽工作; 据上传和下载通道,提供SQL及MapReduce等多种计算分析服务,同时还提供完善的安全解决方案; DataWorks:是基于MaxCompute计算引擎,从工作室、车间到工具集都齐备的一站式大数据工厂,它能帮助你快速完成数据集成、开发、治理、服务、质量、安全等全套数据研发工作; QuickBI & DataV:专为云上用户量身打造的新一代智能BI服务平台。 三、项目场景 数仓项目广泛应用于大数据领域,该项目技术可以高度适配电商、金融、医疗、在线教育、传媒、电信、交通等各领域; 四、项目特色 本课程结合国内多家企业实际项目经验。从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建基于阿里云服务器的大数据集群。采用阿里云ECS服务器作为数据平台,搭建高可用的、高可靠的Flume数据采集通道,运用阿里云DateHub构建中间缓冲队列并担任数据分发枢纽将数据推送至阿里自主研发的DataWorks对数据进行分层处理,采用MaxCompute作为处理海量数据的方案,将计算结果保存至MySQL并结合阿里的QuickBI工作做最终数据展示。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值