kettle
LSY_csdn_
交流请联系QQ:1174928874
展开
-
ETL工具KETTLE简介
目录1、ETL简介:2、KETTLE简介:3、KETTLE常用功能:(1)全量数据迁移:(2)增量数据迁移:(3)解析xml文件(单个、批量):(4)解析JSON数据:(5)数据关联比对:(6)数据清洗转换:4、KETTLE自我理解:1、ETL简介:ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、...原创 2019-06-16 21:30:35 · 5309 阅读 · 1 评论 -
ETL工具KETTLE常用设计之——多表或整库数据全量迁移
一、思路:有主作业、子作业两个作业组成这个流程,在主作业中,首先调用一个转换用来获取指定库中所有的表名、指定的表名等内容复制到结果记录,然后调用一个子作业,子作业中先调用一个转换用来结果记录中的信息,然后设置变量,变量有效范围为parent_job,然后子作业再调用一个转换,用来执行sql脚本创建表结构和获取源数据表中的数据再输出到对应的目标数据库中表中即可,因为字段名称是一致的,所以不需要指...原创 2019-12-22 14:25:30 · 964 阅读 · 0 评论 -
ETL工具KETTLE常用设计之——单表数据增量迁移记录增量数据数量
目录一、主体思路:1、基础要求:2、具体思路如下:二、具体kettle设计作业操作:1、主作业:2、获取查询开始时间:3、创建查询结束时间:4、通过比对更新数据:5、通过比对插入数据:6、统计同步数据量:一、主体思路:1、基础要求:需要同步的源表中要有主键ID、时间戳这两个字段。并且源表中新插入数据时时间戳字段值为当前系统时间,源表中数据有...原创 2019-12-23 20:37:06 · 1982 阅读 · 0 评论 -
ETL工具KETTLE作业设计环境windows与运行环境linux协同问题
目录一、如何在Linux上登录kettle的文件资源库或数据库资源库:二、Window中kettle的文件资源库如何在linux中执行:三、Window中kettle的数据库资源库如何在linux中执行:一、如何在Linux上登录kettle的文件资源库或数据库资源库:说明:在window中可以通过可视化界面来登录kettle的资源库,在linux中没有可视化界面,win...原创 2019-12-22 13:52:37 · 975 阅读 · 0 评论 -
ETL工具KETTLE常用设计之——发送邮件
一、邮件信息在组件中:在转换中使用邮件“发送邮件”组件,进行发送邮件:配置收件人、发件人(多个用空格分隔)等信息:配置发件人的邮箱、密码等信息:配置邮箱信息:就按照红线中配置即可,此方式可动态获取当前job的名称。如果需要发送其它信息,请自行尝试即可。二、邮件信息写在配置文件中(强烈推荐)1、将发件人、发件人昵称、收件人(多个用空格分隔)、发件邮箱服务器地址和...原创 2019-12-18 20:41:45 · 1663 阅读 · 0 评论 -
ETL工具KETTLE常用设计之——下载远程服务器文件
一、下载文件:在kettle作业中使用:“SFTP下载”组件,将远程服务器中指定文件夹中的文件下载到本地。二、获取文件名:在转换中使用输入中“获取文件名”组件,用来获取下载到本地的文件夹中的文件名称,并将文件名输出到指定位置保存。三、文件输入:在转换中,可以使用输入中“文本文件输入”等输入组件,将刚才保存的文件名称输入获取到,然后可以传输到一个job中,该job...原创 2019-12-18 20:26:24 · 3069 阅读 · 0 评论 -
ETL工具KETTLE常用设计之——作业设计思路模板
目录01:检查数据库连接:02:设置环境变量:03:设计各自数据流程转换:04:邮件通知:ETL工具KETTLE用来设计数据流程,无论什么逻辑的数据流程,一般都有一个通用的设计模板流程,在这个模板流程下各自配置各自的具体数据流程,这样可以做到非常好的对流程进行监控。具体设计思路模板如下:01:检查数据库连接:将数据流程中使用到的数据库连接首先进行检查,如果有数据库...原创 2019-12-18 19:50:50 · 1238 阅读 · 0 评论 -
ETL工具KETTLE学习资料整理
KETTLE基础操作手册:链接:https://pan.baidu.com/s/1Q08QTjzYc7B7wUzWysJB8w提取码:o2axKETTLE基础视频教程:链接:https://pan.baidu.com/s/1naarBAGyiS7KsgexuSAN7g提取码:0pd0KETTLE交流QQ群(很给力的群):195548102...原创 2019-06-16 21:04:16 · 825 阅读 · 0 评论 -
ETL工具KETTLE常用设计之——JSON解析
一、主体思路:主要是先获取到json,然后非常清楚json的结构形式,然后明确自己需要哪些字段。最后根据jsonPath编写出各个解析各个字段获取对应的值得json解析路径。通过这样一个思路就可以利用Kettle零代码快速完成json解析工作。二、具体配置操作:(1)指定json来源:在kettle组件“JSON Input”中,指定json的来源,是流中某一个字段,还是指定的一个...原创 2019-12-22 14:43:21 · 2782 阅读 · 0 评论 -
ETL工具KETTLE资源库简介
KETTLE资源库:就是KETTLE设计的文件存放的位置。一般KETTLE设计的文件可以存放在3个地方:本地自定义位置、数据库资源库、文件库资源库。本地自定义位置存储:这种方式是KETTLE默认的存储方式,非常不好,设计的文件存储会非常凌乱、不容易后期对文件进行备份,并且不能够轻松实现数据库db连接方式的共享,对于后期的作业执行、作业迁移非常的不方便。总之,此方式不应该是正确的开发存储方式,强...原创 2019-06-16 21:50:38 · 1112 阅读 · 0 评论 -
ETL工具KETTLE搭建windows设计运行环境
目录一、安装JDK环境:二、软件下载:三、软件解压:四、配置环境变量:五、修改参数:1、设置编码格式为UTF-8:2、根据电脑性能提高参数:六、启动测试:一、安装JDK环境:需要安装JDK1.8及以上的环境。二、软件下载:kettle软件下载地址:https://sourceforge.net/projects/pentaho/files/Da...原创 2019-12-18 19:24:08 · 883 阅读 · 0 评论 -
ETL工具KETTLE搭建linux运行环境
目录一、安装JDK环境:二、软件下载:三、软件解压:四、配置环境变量:五、修改参数:1、设置编码格式为UTF-8:2、根据电脑性能提高参数:六、启动测试:一、安装JDK环境:需要安装JDK1.8及以上的环境。二、软件下载:kettle软件下载地址:https://sourceforge.net/projects/pentaho/files/Da...原创 2019-12-18 19:32:25 · 1574 阅读 · 2 评论 -
ETL工具KETTLE通用知识简介
目录一、Kettle连接不同数据库驱动jar包放置位置:二、Kettle中设置编码格式:三、Kettle作业与转换如何配合使用:四、Kettle文件资源库与数据库资源库内容如何转换:1、文件资源库导入到数据库资源库:2、数据库资源库导入到文件资源库:五、Kettle实现的功能:一、Kettle连接不同数据库驱动jar包放置位置:Kettle软件部署在不同操...原创 2019-12-22 14:02:31 · 830 阅读 · 0 评论 -
ETL工具KETTLE常用设计之——自动循环
1、主体思路:有主作业、子作业两个作业组成这个流程,在主作业中,首先调用一个转换用来获取指定的需要循环的变量值并将内容复制到结果记录,然后调用一个子作业,子作业中先调用一个转换用来结果记录中的信息,然后设置变量,变量有效范围为parent_job,然后子作业再调用一个转换,用来执行具体的数据处理逻辑的转换中,在使用到循环变量的时候,就引用设置的变量即可,这样就可以实现将循环变量自动循环执行每一...原创 2019-12-22 14:20:38 · 938 阅读 · 0 评论 -
ETL工具KETTLE常用设计之——单个或批量xml文件解析
1、核心思路:就是指定要循环读取XML的路径,并指定该路径下每个字段对应的路径,以便kettle能够循环读取XML中的数据,从而获取所有记录中不同字段的值。2、具体步骤如下:(1)选择XML文件路径(如果文件中各种节点路径一模一样,可以选择多个文件,在选择多个文件时可以逐个选择文件添加进去,也可以选择一个文件夹路径,然后通过通配符批量选择xml文件):(2)指定要循环读取的XMP路...原创 2019-12-22 14:13:41 · 2972 阅读 · 0 评论 -
ETL工具KETTLE表输入表输出提速5-10倍
目录1、数据库操作:2、表输入jdbc连接操作:(1)jdbc连接地址配置参数:(2)增加读速度配置参数:3、表输出jdbc连接操作:(1)jdbc连接地址配置参数:(2)增加批量写速度配置:4、Kettle作业操作:5、操作结果:1、数据库操作:因为是大批量数据迁移,主要影响抽取速度的是表输出,因此目标数据库要重新启动下,保证目标数据库性能最好,...原创 2019-06-25 08:35:19 · 12184 阅读 · 19 评论