![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
kettle-8.3.0.0
kettle-8.3.0.0的使用
浅汐王
这个作者很懒,什么都没留下…
展开
-
kettle-8.3.0.0:MySQL级表关联
目的在数据库A中创建“用户表”、“商品表”、“订单表”,在数据库B中创建“订单详细信息表”。最终目标为根据用户表、商品表、订单表获取订单详细信息表,最终目标结果如下。create database testA;use testA;-- 用户表create table `user`( `id`int(10) primary key, `name` varchar(50...原创 2019-12-29 17:41:02 · 425 阅读 · 0 评论 -
kettle-8.3.0.0:MySQL字段合并
目的在数据库A和数据库B中分别创建表userA和表userB。最终目标为将数据表userA中的字段“surname”和“name”合并后的数据插入到数据表userB中。create database testA;use testA;create table `userA`( `id`int(10) primary key, `surname` varchar(10),...原创 2019-12-29 17:15:34 · 696 阅读 · 0 评论 -
kettle-8.3.0.0:MySQL增量插入和更新
目的在数据库A和数据库B中分别创建表userA和表userB。最终目标为将数据表userA中的数据插入更新到数据表userB中。create database testA;use testA;create table `userA`( `id`int(10) primary key, `name` varchar(50), `age` int(3))ENGI...原创 2019-12-29 17:10:21 · 815 阅读 · 0 评论 -
数据管理篇
一、概述数据管理主要分为:元数据管理、计算管理、存储和成本管理、数据质量管理二、元数据元数据主要分为两大类:技术元数据和业务元数据技术元数据:存储数据仓库技术细节的数据,包括:存储元数据:表名、字段名、分区信息等运行元数据:作业类型、SQL、运行参数等开发元数据:数据同步、计算任务、任务调度等信息监控元数据:告警配置、运行日志等信息业务元数据:纬度及属性...原创 2019-12-28 22:21:18 · 272 阅读 · 0 评论 -
数据模型篇
一、概述1.什么是数据模型?数据模型就是数据的组织和存储方法。主要关注的是从业务、数据存取和使用角度合理存储数据。2.典型数据仓库建模方法论ER模型纬度模型(建模四步曲:确定业务流程->确定粒度->确定纬度->确定事实表)二、阿里巴巴数据整合管理体系oneData1.体系架构 核心内容包括规范定义、模型设计等!2.模型分层主要分为三大...原创 2019-12-28 22:04:30 · 241 阅读 · 0 评论 -
kettle-8.3.0.0:插件的安装与使用(大数据表插件使用)
ODPS插件参考:基于Kettle的MaxCompute插件实现数据上云使用Hive参考:http://cloud.itheima.com/areanew/schoolzixun/cloud/20190801/192216.html主要步骤:(请先在本机配置hosts)修改\kettle\data-integration\plugins\pentaho-big-data-plu...原创 2019-12-28 13:08:57 · 1250 阅读 · 0 评论 -
kettle-8.3.0.0:数据检验、统计与脚本
概述数据剖析和数据检验:用于数据的检查、清洗 。统计步骤:提供数据采样和统计的功能。分区:根据数据里某个字段的值,拆分成多个数据块。输出到不同的库表和文件中。脚本:Javascript 基础数据剖析和数据检验1.数据剖析分析原始数据的数据类型、长度、值域等,属于ETL的第一步kettle中使用DataCleaner进行数据剖析首先需要在工具-marketPlace中安装...原创 2019-12-28 12:50:42 · 7962 阅读 · 2 评论 -
kettle-8.3.0.0:子转换、集群与变量
概述kettle中3个重要的步骤:子转换/映射:在转换里调用一个子转换,便于封装和重用。集群:集群模式变量和参数:变量和参数的用法子转换定义子转换:主要由映射输入与映射输出定义这里给出一个从kettle自带的samples中拿出来的示例,详情配置,参考kettle示例保存这个转换(可以是文件,也可以在资源库),这就是子转换了!2.调用子转换 子转...原创 2019-12-28 12:44:07 · 441 阅读 · 0 评论 -
kettle-8.3.0.0:查询步骤与连接步骤
概述查询步骤:用来查询数据源里的数据并合并到主数据流中 。连接步骤:结果集通过关键字进行连接 。(与前面的UNION不同)查询步骤1.流查询流查询示例:(注意上文中的流查询的限制) // 带有i的流向表示是信息流2.数据库查询数据库查询配置示例:3.web查询//相关实例,也可以看kettle包中的examplesweb中前面应...原创 2019-12-27 16:56:46 · 389 阅读 · 0 评论 -
kettle-8.3.0.0:流程步骤与应用步骤
概述流程主要用来控制数据流程与数据流向。应用则是提供一些工具类。流程步骤1.ETL元数据注入类似Java中的反射,在设计时不知道文件名、文件位置等,在真正执行时才知道具体的一些配置等信息具体介绍后续补充,官方Wikia:https://wiki.pentaho.com/display/EAI/ETL+Metadata+Injection2.数据过滤这里说一下Ja...原创 2019-12-27 16:47:59 · 758 阅读 · 0 评论 -
kettle-8.3.0.0:转换步骤
概述转换步骤分类:1. 增加新的列2. 字符串处理3. 行列变换4. 排序/排重/字段选择5. 其他转换步骤增加新的列1.增加常量列增加一列常量的列其它增加列的操作大同小异,不一一赘述,只介绍计算器增加常量列增加序列列增加分组序列列增加校验列增加XML列计算器 2.计算器可以进行数值运算、日期运算等...(更多计算类型的介绍,参见...原创 2019-12-27 15:36:35 · 478 阅读 · 0 评论 -
kettle-8.3.0.0:输出步骤
概述数据库表:• 表输出• 更新,删除,插入/更新• 批量加载(mysql,oracle)• 数据同步文件:• SQL 文件输出• 文本文件输出• XML 输出• Excel Output/Excel Writer其他(报表、应用)数据库输出1.表输出(提前手动在数据库中创建表)使用SQL的方式向数据库插入数据(INSERT)支持批量提交支...原创 2019-12-27 12:00:14 · 502 阅读 · 0 评论 -
kettle内置变量和属性参考
内置变量变量 描述 Internal.Kettle.Version 这是kettle的版本号,比如4.0.0 Internal.Kettle.Build.Version 这是kettle源代码的SVN的修订号 Internal.Kettle.Build.Date 这是kettle的build日期 Internal.Job.Filename.Directo...原创 2019-12-27 11:39:20 · 1163 阅读 · 0 评论 -
kettle-8.3.0.0:输入步骤
输入步骤主要分为以下几类:• 生成记录/自定义常量• 获取系统信息• 表输入• 文本文件输入• XML 文件输入• Json输入• 其他输入步骤生成记录和自定义常量1.生成记录由于生成记录每行都是一样的数据,所以便诞生了自定义常量数据来手工模拟数据2.自定义常量数据常用于构造一些测试数据。获取系统信息获得各类系统信息,常见的包括:• 转换开...原创 2019-12-27 11:47:26 · 474 阅读 · 0 评论 -
kettle-8.3.0.0:基本使用
一、子程序功能和启动方式介绍spoon.sh: 图形界面方式启动作业和转换设计器。pan.sh: 命令行方式执行转换。kitchen.sh: 命令行方式执行作业。carte.sh: 启动web服务,用于 Kettle 的远程运行或集群运行。encr.sh: 密码加密转换和作业:Kettle 的 Spoon 设计器用来设计转换(Transformation)和 作业(Job...原创 2019-12-27 10:20:55 · 1867 阅读 · 0 评论 -
kettle-8.3.0.0:资源库、运行方式与日志
资源库资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。kettle资源库元数据•资源库资源库包括文件资源库、数据库资源库Kettle 4.0 以后资源库类型可以插件扩展•XML 文件.ktr 转换文件的XML的根节点必须是 <tra...原创 2019-12-26 11:23:53 · 967 阅读 · 0 评论 -
kettle-8.3.0.0:创建资源库
资源库的介绍kettle资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。资源库有两种形式:一、Kettle database repository,即保存在各种常见的数据库资源库类型,用户通过用户名/密码来访问资源库中的资源,默认的用户名/密码是ad...原创 2019-12-26 10:35:16 · 1699 阅读 · 0 评论 -
kettle-8.3.0.0:定时任务(后台任务)
前面我们介绍了 Kettle的Spoon的转换和作业定时任务GUI设计方式以及运行,但是在实际应用中,我们需要计划任务是在服务器后台运行。首先我们需要了解Kettle的Kitchen和Pan:Kitchen——作业(job)执行器 (命令行方式)Pan——转换(trasform)执行器 (命令行方式)下面我们将重点讲解经常会用到的 ***作业执行器 kitchen.sh *** 。...原创 2019-12-26 00:56:54 · 3132 阅读 · 0 评论 -
kettle-8.3.0.0:定时任务(GUI)
应用场景有时候,需要我们建立的转换任务能够定时执行,那么我们需要怎么办呢?此时,我们需要建立一个job,来让转换定时执行。操作步骤1、运行软件,进入主界面。点击左上角的 文件 → 新建 → 作业(J)新建一个作业(job),并保存,作业的后缀名为.kjb。2、点击面板左侧的核心对象,选择通用文件夹下的START和转换并把它拖到右侧的编辑区中,按住shift画...原创 2019-12-26 00:30:49 · 467 阅读 · 0 评论 -
kettle-8.3.0.0:在MySQL中,将A库的某张表的数据插入到B库(B库中的目的表要事先创建好) 全量同步
应用场景:为了方便演示,在数据库A和数据库B中分别创建表userA和表userB。最终目标为将数据表userA中的数据插入到数据表userB中。create database testA;use testA;create table `userA`( `id`int(10) primary key, `name` varchar(50), `age` int(...原创 2019-12-26 00:13:03 · 1318 阅读 · 0 评论 -
kettle-8.3.0.0连接MySQL报错
问题描述:点击 "测试" 以后,报错信息如下:org.pentaho.di.core.exception.KettleDatabaseException: Error occurred while trying to connect to the databaseDriver class 'org.gjt.mm.mysql.Driver' could not be found,...原创 2019-12-25 23:18:08 · 973 阅读 · 1 评论 -
kettle-8.3.0.0的下载安装
Kettle 介绍Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎...原创 2019-12-25 22:48:59 · 2121 阅读 · 0 评论