Streamsets（三）SS配置MySQL数据同步到本地目录

最新推荐文章于 2024-04-20 09:48:32 发布

芦苇_

最新推荐文章于 2024-04-20 09:48:32 发布

阅读量588

点赞数

分类专栏： Streamsets

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/maomaosi2009/article/details/108292686

版权

Streamsets 专栏收录该内容

18 篇文章 10 订阅

订阅专栏

1、配置pipeline

安装好SS并配置好MySQL驱动后简单的测试从MySQL读取数据，写入到本地的文件系统（这里说的本地指的是运行SS服务的服务器）

1.1、配置JDBC Query Consumer

这里需要定义一个执行的SQL语句，SQL语句需要符合相关规范，包括有where条件，order by 排序规则，如下：

select * from user_organ_base where date_created>'${OFFSET}' order by date_created

在下面声明了Initial Offset指为2015-08-26 11:36:54，Offset Column为date_created，Query Interval位10，结合我们的SQL语句，表明每间隔10秒取执行一次SQL，给定的排序字段为date_created字段，给定的默认值为2015-08-26 11:36:54，那第一次执行的完整SQL语句实际上是

select * from user_organ_base where date_created>'2015-08-26 11:36:54' order by date_created

假设我们的表有10W条数据，那这次获取到1000条数据，这1000条数据会根据date_created进行排序，最后一条数据的date_created值为2015-09-26 11:36:54，那下一次执行的SQL语句实际上是

select * from user_organ_base where date_created>'2015-09-26 11:36:54' order by date_created

可以看到每次data_created都在变化，相当于一段一段的往后取数据，因此我们在定义SQL Query的时候不可以将date_created的where条件写死，而是使用>'${OFFSET}'的方式声明，这个OFFSET就是我们定义的Offset Colum字段，初始值是我们所给定的，后续每次执行的时候SS会字段将其更新，保证SQL执行的数据不会重复

如果想重置这个OFFSET值的话可以选择reset origin，这样offset就会被重置为我们设置的默认值

1.2、配置Local FS

注意Directory Template的配置是需要安装特定规则进行配置的，最终数据就生成在这个目录下

2、启动

直接运行刚刚的pipeline

数据都在SS服务器的本地进行了存储，该SQL每隔10s执行一次，但是我的数据总量只有6168，offset在运行完第一次后已经被更新为最大值，即使任务一直不关闭也不会再从mysql读取数据并写到本地了

如果第二次运行该pipeline时无任何报错信息，但是监控图表中input和output一直为0，可以试着将offset重置一下再运行pipeline

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Streamsets（三）SS配置MySQL数据同步到本地目录

1、配置pipeline安装好SS并配置好MySQL驱动后简单的测试从MySQL读取数据，写入到本地的文件系统（这里说的本地指的是运行SS服务的服务器）1.1、配置JDBC Query Consumer这里需要定义一个执行的SQL语句，SQL语句需要符合相关规范，包括有where条件，order by 排序规则，如下：select * from user_organ_base where date_created>'${OFFSET}' order by date_created
复制链接

扫一扫

专栏目录

芦苇_ CSDN认证博客专家 CSDN认证企业博客

码龄13年

53: 原创

7万+: 周排名

149万+: 总排名

23万+: 访问

: 等级

2499: 积分

104: 粉丝

41: 获赞

56: 评论

72: 收藏

私信

关注

热门文章

分类专栏

最新评论

Streamsets FAQ（三）SS前端界面时间格式调整
老衲掐指一算: 使用cst是14小时使用utc相差8小时
Streamsets FAQ（一）使用binglog同步MySQL数据到kudu，date数据类型在两端不一致
芦苇_: 不客气的
Streamsets FAQ（一）使用binglog同步MySQL数据到kudu，date数据类型在两端不一致
口袋冇果果: 用那个Expression Evaluator 组件可以转换，谢谢大佬
Streamsets FAQ（一）使用binglog同步MySQL数据到kudu，date数据类型在两端不一致
芦苇_: 报错已经提示了，在pipeline里面2022-04-25 10:31:17是一个字符串，但是你MySQL的last_update_date是date类型吧，类型不匹配，你把MySQL改成了varchar就匹配了，或者在pipeline里面加一个节点把这个字段转一下类型
Streamsets FAQ（一）使用binglog同步MySQL数据到kudu，date数据类型在两端不一致
口袋冇果果: 你好大佬，请问一下我kafka写入mysql，但是日期相关的行就会报错JDBC_23 - Can't coerce '2022-04-25 10:31:17' of type 'STRING' to column 'last_update_date' ，在mysql里面将这列改为varchar类型才能保存请问什么原因呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。