---Kettle
大数据学习二级分类,涉及Kettle。
也是一个数据迁移工具,比sqoop更轻巧,但是一般只能支持千万级数据数据迁移。
寒 暄
自渡
展开
-
Kettle操作手册-Kettle常用连接步骤
常用连接步骤类似join的功能,最主要的功能是通过关键字连接结果集。合并记录合并记录是用于将两个不同来源的数据合并,这两个来源的数据分别是旧数据与新数据,该步骤将旧数据与新数据按照指定的关键字匹配、比较、合并。标志字段:‘identical’ - 旧数据和新数据一样‘changed’ - 数据发生变化‘new’ - 新数据中有而旧数据中没有的记录‘deleted’ - 旧数据中有而新数据中没有的记录记录关联(笛卡尔积)笛卡尔积没啥好说的,一般在导入数据前应该做笛卡尔积操作。记录原创 2020-05-22 15:23:49 · 4849 阅读 · 0 评论 -
Kettle操作手册-Kettle常用查询步骤
常用查询步骤主要的作用是用来查询数据源中的数据并合并到主数据流中。HTTP ClientHTTP Client是使用GET的方式提交请求,获取返回的页面内容数据库查询查询数据库表数据流查询在被动查询的表中按照主动查询进行匹配...原创 2020-05-22 15:22:55 · 1227 阅读 · 0 评论 -
Kettle操作手册-Kettle常用应用步骤
常用应用步骤应用就是工具类。替换NULL值可以选择全部替换,也可以指定字段来替换。写日志写日志主要在调试时使用,把日志信息打印到日志窗口。常用流程步骤类似于流程控制。switch-case可以让数据流从一路到多路过滤记录过滤记录是让数据流从一路到两路类似于if-else。空操作空操作一般作为数据流的终点。(在实际中很少使用)中止中止是数据流的终点,如果有数据到这里就会报错(一般用于校验数据使用)...原创 2020-05-22 15:22:12 · 783 阅读 · 0 评论 -
Kettle操作手册-Kettle常用转换步骤
常用转换步骤属于ETL中的T,属于清洗操作,是ETL过程中最重要的步骤,一般占据整个ETL过程的三分之二以上。Concat FieldsConcat Fields就是多个字段连接在一起形成一个新的字段。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UkO5oFcA-1589534171765)(https://i.loli.net/2020/05/15/WLQ8dZNSilDmOja.jpg)]值映射将字段里的某个值映射成其他的值增加常量就是在本身的数据流原创 2020-05-22 15:19:48 · 3120 阅读 · 0 评论 -
Kettle操作手册-Kettle常用输出步骤
常用输出步骤属于ETL中的L,用于导出数据Excel输出上面说到Excel有两种格式:XLS和XLSX,他们在输出上也略有不同:文本文件输出最省心也最鸡肋的输出方式,一般用于导出格式化日志文件。SQL文件输出可以输出表结构语句或表结构+数据语句。表输出将其他输入源的数据输出到表中。更新更新就是把数据库中已经存在的记录与数据流里面的记录进行对比,如果不同就进行更新。插入更新插入更新就是在更新的基础上插入了数据流中多余的数据。操作方式与更新一样,不再赘述。删除删除可以和原创 2020-05-22 15:18:46 · 684 阅读 · 0 评论 -
Kettle操作手册-Kettle常用输入步骤
常用输入步骤属于ETL中的E,导入数据。csv文件输入csv文件是一种有固定格式的文本文件。具体用法在第一个例子中已经详解,不再赘述。Excel文件输入Excel有两种后缀名: .xls和.xlsx。输入不同的后缀名文件需要选择不同的引擎。同时也可以选择同一目录下的所有文件。选择目录,然后通配符号通配文件,也可以选择是否读取当前目录下子目录的文件。Get data from XMLXML是可扩展标记语言,主要用来传输与存储数据。读取xml文件的话,就需要使用xpath,xpath原创 2020-05-22 15:17:49 · 917 阅读 · 0 评论 -
Kettle操作手册-Kettle核心概念
kettle核心概念可视化编程kettle可以被归类为可视化编程语言,因为kettle可以使用图形化的方式定义复杂的ETL程序和工作流。kettle里的图就是转换和作业两部分可视化编程一直是kettle里的核心概念,他可以快速构建复杂的ETL作业和减低维护工作量。同时他隐藏了很多细节,业务人员也可以使用。转换转换(transformation)是ETL解决方案中最重要的部分,他处理抽取、转换、加载各种对数据的操作。转换包含一个或多个步骤,如读文件、过滤数据行、数据清洗或将数据加载到数据原创 2020-05-22 15:16:11 · 490 阅读 · 0 评论 -
Kettle操作手册-Kettle部署与第一个例子
kettle部署配置java环境变量略运行kettle双击spoon.bat即可kettle界面介绍第一个例子将csv文件复制到Ecxel文件中分析抽取CSV文件内容,输出到Excel文件中。新建转换选择输入配置文件输入信息选择输出输出文件配置运行执行日志结果...原创 2020-05-22 15:14:56 · 270 阅读 · 0 评论 -
Kettle操作手册-Kettle简介与目录介绍
ETL简介ETL(Extract-Transform-Load的缩写,即数据抽取,数据转换,数据装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以要掌握一款ETL工具。为什么选择kettlekettle是一款开源的,纯java编写的,可以跨平台的,绿色版无需安装的ETL工具,数据抽取高效稳定。kettle的中文名是水壶,该项目的主旨是希望将各种数据放到一个水壶里面,然后以指定的格式让他流出来。kettle这个ETL工具集,他允许输入不同数据库的数据,通过提供一个图原创 2020-05-22 15:14:03 · 1295 阅读 · 0 评论 -
kettle操作手册-常用统计/映射步骤
ETL简介ETL(Extract-Transform-Load的缩写,即数据抽取,数据转换,数据装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以要掌握一款ETL工具。为什么选择kettlekettle是一款开源的,纯java编写的,可以跨平台的,绿色版无需安装的ETL工具,数据抽取高效稳定。kettle的中文名是水壶,该项目的主旨是希望将各种数据放到一个水壶里面,然后以指定的格式让他流出来。kettle这个ETL工具集,他允许输入不同数据库的数据,通过提供一个图原创 2020-05-18 15:24:57 · 559 阅读 · 0 评论