初探ETLCloud CDC零代码实现MySQL数据实时同步

CDC实时数据同步的应用场景

CDC实时同步功能是现代数据仓库技术中常见的一种数据同步技术,能够实现实时交互、持续同步、高可用性和高性能的数据传输。

应用场景:

实时数据备份:将源系统的数据实时备份到目标数据系统中,确保数据的实时性和可靠性。

高效数据同步:保证源系统中数据变化及时地同步到目标数据系统中,减少数据同步延迟和数据丢失。

数据异构转换:将不同数据系统之间的数据进行异构转换,实现数据的互通和共享。

数据监管和审计:对数据的改动进行监管和审计,提高数据的安全性和合规性。

ETLCloud CDC介绍

ETLCloud CDC是一款容易安装易使用的、零代码的CDC实时数据同步工具,ETLCloud CDC具有以下功能特点:

零代码:只需简单配置,无需任何代码即可完成CDC的配置和同步。

实时数据同步:将一个或多个源数据系统的数据实时传输到目标数据系统。

增量数据同步:高效的数据同步方式,可以只同步最新的更新内容,避免全部备份和传输。

数据源类型:ETLCloud CDC支持多种数据源类型的实时同步主要包含:MySQL、Sql Server、Oracle、PG、MQ等。

实时数据类型转换:实时将原始数据转换为目标端可以识别的格式,从而保证数据准确性和有效性。

DDL同步当源表的DDL发现变更时自动同步目标表的DDL。

断点自动恢复:在传送过程中发生异常时能自动从断点位置重新传送实时数据。

CDC+ETL一体化架构通过CDC实时数据流与ETL的结合实现对实时复杂数据的处理需求。

此外,ETLCloud CDC 还具备高可用性、灵活配置、数据安全加密、任务监控等功能,可满足不同场景下企业级应用的要求。

安装部署

安装ETLCloud CDC

步骤1:官网下载linux一键部署包,把一键部署包放到一个目录下解压并进入该目录。

对脚本文件进行赋权

chmod +x restcloud_install.sh

执行脚本

./restcloud_install.sh

 

等待tomcat启动,当出现这个界面,则restcloud证明启动成功

 

步骤2:打开浏览器输入{host}/restcloud/admin/login

输入用户名密码: admin/pass

 

步骤3:登入系统后我们去官网申请sn码

 

 

填写好邮箱和对应的机器号,点击验证发送验证邮件然后就会返回申请的序列号到所填写的邮箱

 

将返回的序列号填好,点击保存,刷新页面进入到首页

 

步骤4:填写好序列号后, 需要执行下版本更新, 在平台主页选择平台监控 -> 一键备份升级,点击版本更新按钮,重启Tomcat即可。

进入tomcat/bin目录

cd /usr/tomcat/bin

//启动tomcat并打印启动日志

./startup.sh && tail -f ../logs/catalina.out

 

ETLCloud CDC实时库表同步

步骤1:启用MySQL的CDC功能,需要在MySQL的my.cnf配置文件中设置相应的参数。

在配置文件中增加如下配置,开启Binlog。

server-id = 123

log_bin = mysql-bin

binlog_format = row

binlog_row_image = full

expire_logs_days = 10

gtid_mode = on

enforce_gtid_consistency = on

修改完配置参数后重启MySQL服务

 

步骤2:创建数据监听器

 

步骤3:配置数据监听器

在创建数据同步任务后,需要对同步任务进行配置。在这个过程中,您需要指定要同步的表以及数据传输模式。

 

 

 

步骤4:启动同步任务

完成同步任务的配置后,您需要启动同步任务以开始实时同步数据。在ETLCloud中,可以通过单击“启动”按钮来启动同步任务。

 

步骤5:监控同步任务

启动数据同步任务后,可以通过监控面板统计图来了解任务的运行状态、同步量以及异常情况。

使用Navicat查看源表数据(restcloud.test)

 

使用Navicat查看目标表数据(test.test)

 

执行插入语句

 

监控面板统计图

 

再次使用Navicat查看源表数据(restcloud.test)

 

目标表数据(test.test)

 

通过对比发现ETLCloud CDC实时同步功能成功使用。

ETLCloud CDC实时同步功能是一种高效、可靠的数据同步方案,它可以用于实现源数据库和目标数据库之间的实时同步,从而提高数据集成和应用开发的效率。

ETLCloud CDC社区免费版本下载地址:ETLCloud 全域数据集成平台

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
好的,下面是一份可能的大作业实践方案,可以供您参考: ## 1. 爬虫部分 ### 1.1 需求分析 根据题目要求,需要编写一个爬虫程序,爬取指定网站的数据。在爬取数据的过程中,需要做到: - 发送请求,获取网页内容 - 解析网页内容,提取所需数据 - 存储数据,方便后续的数据分析和可视化操作 ### 1.2 技术选型 根据需求分析,可以发现,需要使用 Python 编写爬虫程序。Python 有很多第三方库可以用来编写爬虫,比如 BeautifulSoup、Scrapy、urllib、requests 等等。这里我们选择使用 urllib 和 re 两个标准库来编写爬虫程序。 ### 1.3 实现步骤 首先,需要确定爬取的目标网站和要爬取的数据。这里我们选择爬取豆瓣电影 Top250 的电影名称、评分和简介等信息。 其次,需要发送请求,获取网页内容。可以使用 urllib 发送请求,并设置请求头模拟浏览器访问。 ```python import urllib.request # 设置请求头,模拟浏览器访问 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } # 豆瓣电影 Top250 的 url url = 'https://movie.douban.com/top250' # 发送请求,获取网页内容 try: request = urllib.request.Request(url, headers=headers) response = urllib.request.urlopen(request) content = response.read().decode('utf-8') except Exception as e: print(e) ``` 接着,需要解析网页内容,提取所需数据。可以使用 re 正则表达式来解析网页内容,提取电影名称、评分和简介等信息。 ```python import re # 解析网页内容,获取电影信息 pattern = re.compile(r'<span class="title">(.*?)</span>.*?<span class="rating_num" property="v:average">(.*?)</span>.*?<span class="inq">(.*?)</span>', re.S) movies = re.findall(pattern, content) ``` 然后,需要存储数据,方便后续的数据分析和可视化操作。可以将数据存储到文本文件中,或者使用数据库存储数据。 ```python # 将电影信息保存到文件 with open('movies.txt', 'w', encoding='utf-8') as f: for movie in movies: f.write('电影名称:' + movie[0] + '\n') f.write('评分:' + movie[1] + '\n') f.write('简介:' + movie[2] + '\n\n') ``` ## 2. 数据分析部分 ### 2.1 需求分析 在完成爬虫程序之后,需要对爬取到的数据进行分析。在数据分析的过程中,需要做到: - 统计电影的评分分布情况 - 统计电影的类型分布情况 - 统计电影的上映年份分布情况 ### 2.2 技术选型 根据需求分析,需要使用 Python 对数据进行统计和分析。Python 中有很多第三方库可以用来进行数据分析,比如 pandas、numpy、matplotlib 等等。这里我们选择使用 pandas 和 matplotlib 两个库来进行数据分析和可视化。 ### 2.3 实现步骤 首先,需要读取爬取到的数据。可以使用 pandas 库读取文本文件中的数据。 ```python import pandas as pd # 读取数据 data = pd.read_csv('movies.txt', delimiter=':', header=None, names=['类别', '内容']) ``` 接着,需要将电影评分转换为数字类型,并统计电影的评分分布情况。可以使用 pandas 库的 describe() 方法和 matplotlib 库的 hist() 方法来实现。 ```python import matplotlib.pyplot as plt # 将电影评分转换为数字类型 data['内容'] = pd.to_numeric(data['内容']) # 统计电影的评分分布情况 print(data['内容'].describe()) # 可视化电影的评分分布情况 plt.hist(data['内容'], bins=10, color='steelblue', edgecolor='black') plt.xlabel('评分') plt.ylabel('电影数量') plt.title('电影评分分布情况') plt.show() ``` 然后,需要统计电影的类型分布情况。可以使用 pandas 库的 str.contains() 方法和 value_counts() 方法来实现。 ```python # 统计电影的类型分布情况 types = ['剧情', '喜剧', '动作', '爱情', '科幻', '动画', '悬疑', '惊悚', '恐怖', '纪录片', '短片', '情色', '同性', '音乐', '歌舞', '家庭', '儿童', '传记', '历史', '战争', '犯罪', '西部', '奇幻', '冒险', '灾难', '武侠', '古装', '运动', '黑色电影'] for t in types: print(t + '电影数量:' + str(data[data['类别'].str.contains(t)]['类别'].count())) # 可视化电影的类型分布情况 data[data['类别'].str.contains('|'.join(types))]['类别'].value_counts().plot(kind='bar') plt.xlabel('电影类型') plt.ylabel('电影数量') plt.title('电影类型分布情况') plt.show() ``` 最后,需要统计电影的上映年份分布情况。可以使用 pandas 库的 str.extract() 方法和 value_counts() 方法来实现。 ```python # 统计电影的上映年份分布情况 data['上映年份'] = data['类别'].str.extract('(\d{4})') print(data['上映年份'].value_counts()) # 可视化电影的上映年份分布情况 data['上映年份'].value_counts().sort_index().plot(kind='bar') plt.xlabel('上映年份') plt.ylabel('电影数量') plt.title('电影上映年份分布情况') plt.show() ``` 到此为止,整个数据分析和可视化流程就完成了。将以上代码整合到一个 Python 文件中,并执行该文件,就可以得到统计结果和可视化图表。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值