ETL
文章平均质量分 62
数据抽取、数据同步、数据转换
gblfy
心如向阳,次第花开!
展开
-
filebeat es logstash kibana kafka zookeeper 集群 全链路调试
filebeat es logstash kibana kafka zookeeper 集群 全链路调试原创 2023-04-02 14:07:59 · 507 阅读 · 2 评论 -
(进阶篇_01)Oracle数据同步3种场景
文章目录原创 2021-01-08 13:13:43 · 1187 阅读 · 0 评论 -
ETL异构数据源Datax_日期增量同步_13
文章目录咱们添加项目、添加任务模板先用以前的,直接任务构建 select IDNO,COL1,COL2,COL3,DT,COL5,COL6,COL7,COL8,COL9,COL10 from otbs1 where dt > to_date(${lastTime},'yyyy-mm-dd hh24:mi:ss') and dt <= to_date(${currentTime},'yyyy-mm-ddhh24:mi:ss')刷新页面查询同步数据的最早时间和最晚时间原创 2021-06-29 18:57:15 · 981 阅读 · 1 评论 -
ETL异构数据源Datax_自增ID增量同步_12
文章目录增量同步方法1.先同步存量数据2.再同步增量数据(根据自增ID、日期条件)前提条件:1.只针对数据增长,如果老数据被update/delete则无法使用增量同步方式。基于主键自增ID增量同步Oracle同步Mysql演示idno采用序列自增添加项目AutoIncrID-Project添加模板构建reader,添加增量同步SQLselect IDNO,COL1,COL2,COL3,DT,COL5,COL6,COL7,COL8,COL9,COL10 from ot原创 2021-06-25 13:11:28 · 1668 阅读 · 1 评论 -
ETL异构数据源Datax_图形化数据同步_11
文章目录1. 添加项目2. 添加数据源3. 添加任务4. 构建json5. 任务执行6. 查看日志7. 同步数量对比1. 添加项目test-project2. 添加数据源3. 添加任务4. 构建json{ "job": { "setting": { "speed": { "channel": 3 }, "errorLimit": { "record": 0, "percentage原创 2021-06-23 22:36:54 · 391 阅读 · 1 评论 -
ETL异构数据源Datax_datax-web安装部署_10
文章目录1. 解压2. 一键安装3. 修改执行器py地址4. 一键启动5. 查看启动日志6. 访问地址+登录7. 操作记录1. 解压tar -zxvf datax-web-2.1.2.tar.gz2. 一键安装# 执行一键安装脚本,系统中需要有mysql环境,会自动执行sql文件初始化bin/install.shcd datax-web-2.1.2/bin/install.sh3. 修改执行器py地址# 修改执行器py地址vim datax-web-2.1.2/modules/data原创 2021-06-23 21:00:25 · 429 阅读 · 1 评论 -
ETL异构数据源Datax_datax-web简述_09
简介地址:https://github.com/WeiYe-Jing/datax-webDataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用DataX的学习成本,缩短任务配置时间,避免配置过程中出错。用户可通过页面选择数据源即可创建数据同步任务,RDBMS数据源可批量创建数据同步任务,支持实时查看数据同步进度及日志并提供终止同步功能,集成并二次开发xxl-job可根据时间、自增主键增量同步数据。架构图在这里插入代码片...原创 2021-06-23 14:30:47 · 325 阅读 · 0 评论 -
ETL异构数据源Datax_使用querySql_08
使用说明当用户配置了这一项之后,DataX系统就会忽略table,column这些配置型,直接使用这个配置项的内容对数据进行筛选,例如需要进行多表join后同步数据,使用select a,b from table_ajoin table_b on table_a.id = table_b.id当用户配置querySql时,OracleReader/MysqlReader直接忽略table、column、where条件的配置,querySql优先级大于table、column、where选项。.原创 2021-06-23 14:25:10 · 1852 阅读 · 1 评论 -
ETL异构数据源Datax_MySQL同步Oracle(全量)_07
文章目录1. 清除Oracle数据库中OTBS1表的数据2. 构建json3. 执行脚本4. 同步验证5. 同步分析7. 同步结果1. 清除Oracle数据库中OTBS1表的数据Truncate TABLE OTBS1;2. 构建json{ "core": { "transport": { "channel": { "speed": { "byte": 1048576原创 2021-06-23 14:08:34 · 259 阅读 · 0 评论 -
ETL异构数据源Datax_限速设置_06
文章目录一、提升job内Channel并发有几种配置方式二、配置简述三、案例3.1. 第一种3.2. 第二种3.3. 第三种3.4. 第四种3.5. 案例实战3.6. 总结前言:在DataX内部对每个Channel会有严格的速度控制,分两种,一种是控制每秒同步的记录数,另外一种是每秒同步的字节数,可以根据具体硬件情况设置这个byte速度或者record速度,一般设置byte速度,比如:我们可以把单个Channel的速度上限配置为5MB。优化:提升DataX Job内Channel并发数 并发数原创 2021-06-23 13:34:17 · 1651 阅读 · 2 评论 -
ETL异构数据源Datax_使用数据分片提升同步速度_05
文章目录1. 构建json,添加数据分片2. Mysql数据清除3. 数据分片前后对比1. 构建json,添加数据分片{ "job": { "setting": { "speed": { "channel": 3 }, "errorLimit": { "record": 0, "percentage": 0.02原创 2021-06-23 13:07:13 · 942 阅读 · 0 评论 -
ETL异构数据源Datax_Oracle同步MySQL(全量)_04
文章目录一、Oracle同步Mysql1. 构建json一、Oracle同步Mysql1. 构建jsonvim oracle2mysql.json在这里插入代码片原创 2021-06-23 12:46:20 · 351 阅读 · 1 评论 -
ETL异构数据源Datax_数据准备_03
文章目录一、前值准备一、前值准备–创建用户–提前分配好表空间大小create user fx identified by fx;grant dba to fx;alter user fx quota unlimited on users;原创 2021-06-23 11:01:23 · 282 阅读 · 1 评论 -
ETL异构数据源Datax_工具部署_02
文章目录一、直接下载DataX工具包二、下载DataX源码,自己编译2.1.下载DataX源码2.2. 通过maven打包:1.datax.tar.gz 包下载链接2. 解压3. 查看常用作业的配置文件4. 编写测试json文件5. 执行测试一、直接下载DataX工具包:DataX下载地址下载后解压至本地某个目录,进入bin目录,即可运行同步作业:tar zxvf datax.tar.gzcd {YOUR_DATAX_HOME}/binpython datax.py {YOUR_JOB.jso原创 2021-06-21 11:41:55 · 276 阅读 · 0 评论 -
ETL异构数据源Datax_部署前置环境_01
文章目录一、检查环境二、JDK环境安装2.1. rpm方式安装2.2. gz方式安装三、python环境安装3.1. python 最新版下载3.2. python 下载指定版本3.3. python 安装一、检查环境检验是否安装jdk环境,要求1.8=<版本java -version检验是否安装python环境,要求2.7=<版本python二、JDK环境安装安装方式任选其一2.1. rpm方式安装安装jdkrpm -ivh jdk-8u271-linux-x原创 2021-06-21 10:43:56 · 371 阅读 · 1 评论