自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 kettle实例--加载时间数据到时间维度表

双击“JavaScript代码2”控件,进入“JavaScript代码2”界面,勾选“兼容模式?单击【输入字段映射】按钮,弹出“映射匹配”对话框,依次选中“源字段”选项框的字段和“目标字段”选项框的字段,再单击【Add】按钮,将一对映射字段添加至“映射”选项框中,若“源字段”选项框的字段和“目标字段”选项框的字段相同,则可以单击【猜一猜】按钮,让Kettle自动实现映射,如图所示。双击“生成记录”控件,进入“生成记录”配置界面,在“限制”处添加生成的时间,这里添加的是生成24小时数据,起始的时间为0;

2022-11-18 19:34:28 1301 1

原创 kettle数据抽取--web数据抽取

1.通过使用Kettle工具,创建一个转换转换xml_extract,并添加“Get data from XML”控件、“表输出”控件以及Hop跳连接线,具体如图所示。单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。双击“表输出”控件,进入“表输出”配置界面。

2022-11-10 22:32:29 934

原创 kettle数据抽取--抽取文本数据

单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。1.通过使用Kettle工具,创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线,具体如图所示。取消勾选“头部”复选框。双击“表输出”控件,进入“表输出”控件的配置界面。

2022-11-10 11:51:48 1541

原创 kettle--基本功能-发送邮件

和“使用HTML邮件格式”的复选框,设置发送的邮件信息里带日期,并发送的邮件是使用HTML格式;在“消息”框中添加邮件的主题和注释。1.通过使用Kettle工具,创建一个作业send_email,并添加Start控件、发送邮件控件、成功控件以及作业跳连接线,具体如图所示。单击“类型”处的下拉框,选择“时间间隔”定时,并设置以秒计算的间隔是10,以分钟计算的间隔是0 (即作业运行10秒后发送邮件)在“地址”选项卡中,添加收件人和发件人的相关信息,这里演示添加收件人地址、发件人回复的名称以及发件人地址。

2022-11-10 11:02:20 2902

原创 kettle基本功能--转换管理

双击“JavaScript代码”控件,进入 “JavaScript代码”界面,在Java script窗口中,编写Java script脚本代码;1.通过使用Kettle工具,创建一个转换field_switching,并添加表输入控件、JavaScript代码控件、插入/更新控件以及跳连接线,具体如图所示。双击“插入/更新”控件,进入“插入/更新”界面,配置MySQL “数据库连接”双击“表输入”控件,进入“表输入”界面,配置MySQL “数据库连接”单击【浏览】按钮, 获取目标表personal_b。

2022-11-09 18:47:03 328

原创 kettle实例--无人售货项目实战(二)

在【字段选择】组件中,设置参数,仅保留productname、amount、productpaytotalprice等字段,并分别改名为“商品名称”“product_number”“product_paytotalprice”,如图所示,丢弃其他与计算各商品销售金额无关的字段。创建排序记录组件(组件命名为“排序记录(按销售金额排序)”)、Excel输出(组件命名为“Excel输出(各商品销售金额)”)组件,将已进行聚合统计的各商品销售金额数据输出至Excel文件中,并建立组件之间的连接,如图所示。

2022-11-02 11:36:13 1787 2

原创 kettle实例--无人售货项目实战(一)

设置【分组】组件参数,在下图所示的【分组】对话框的【构成分组的字段】表中,设置【分组字段】为“客户ID”“客户手机号码”,即按照“客户ID”“客户手机号码”统计客户订单;创建排序记录组件(组件命名为“排序记录(按客户消费金额排序)”)和Excel输出(组件命名为“Excel输出(客户订单)”)组件,将聚合统计的各个客户订单数据输出至Excel文件中,并建立组件之间的连接,如图所示。因为是分组聚合客户订单,所以必须对客户ID进行排序,即同一个客户ID的数据要连在一起,否则数据可能不正确。

2022-11-02 11:17:41 2665 1

原创 kettle实例--任务

2.设置定时调度的参数,如图。3.点击运行按钮,结果如图。

2022-10-28 18:31:47 587

原创 kettle实例--数据迁移和装载-文本文件输出,SQL文件输出

【文件名】设置为“E:\data\ 2020年1月_月考数学成绩”,其他参数采用默认值,此时完成【一般】选项卡的参数设置,如图所示。此处建议读者最好指定输出文件的目录和名称,如果没有指定目录,那么结果文件将输出到系统当前的目录中。(4)在【内容】选项卡中,【日期格式】设置为“yyyy-MM-dd”,如图所示,此时完成【SQL文件输出】组件参数的设置。在【SQL文件输出】对话框的【一般】选项卡中,设置参数,步骤如下。(3)点击文本文件输出控件,在文件名称设置导出表的位置。1 .建立【文本文件输出】转换工程。

2022-10-28 17:06:51 1854

原创 kettle实例--数据迁移和装载

(4)双击表输出控件,建立数据库连接,由于输出的项目为中文,需要在数据库连接的选择一栏中添加characterEncoding=utf-8,如图。(4)双击插入/更新控件,连接数据库,将成绩数据插入数据库数学成绩的表中。(5)由于需要输出到数据库中,需要提前在数据库中创建表格。(6)获取字段,点击字段映射,一一对应后点击确定。(1)点击Excel输入控件,导入数据,如图。(1)双击Excel输入控件,导入数据。(1)双击Excel输入控件,导入数据。(6)字段选项卡中获取字段,如图。

2022-10-26 12:37:31 580

原创 kettle实例--高级转换-设置变量+获取变量

(2)双击【JavaScript代码】组件,编写JavaScript脚本,定义dtNew变量格式为yyyyMMdd,取值为当前日期的前两天,并将dtNew变量名称改名为fileDate。创建【获取系统信息】组件,设置参数,【字段】设置为“fileDate”,【类型】设置为“今天00:00:00”。创建【设置变量】转换工程,加入获取系统信息控件,JavaScript控件以及设置变量控件。(3)双击【设置变量】组件,弹出【设置环境变量】对话框,如图所示。2. 设置【设置变量】参数。3. 预览结果数据。

2022-10-26 11:06:22 9743

原创 kettle实例--高级转换-JavaScript计算总分

1. 建立【JavaScript代码】转换工程。双击excel输入控件,配置导入数据。(2)配置JavaScript控件。在代码输入框中输入代码,设置字段。点击运行按钮,结果如图。3. 预览结果数据。

2022-10-26 10:33:15 558

原创 kettle实例--数据转换-数据粒度的转换

在“第一个步骤的连接字段”和“第二个步骤的连接字段”处添加连接字段,这里添加的连接字段是id和id,用于将“排序记录”控件流中的数据与“排序记录2”控件中的数据合并连接;单击【输入字段映射】按钮,弹出“映射匹配”对话框,依次选中“源字段”选项框的字段和“目标字段”选项框对应的字段,再单击【Add】按钮,将一对映射字段添加至“映射”选项框中,若“源字段”选项框的字段和“目标字段”选项框的字段相同,则可以单击【猜一猜】按钮,让Kettle自动实现映射,具体如图所示。双击“表输入3”控件,进入“表输入”界面。

2022-10-25 18:38:04 751 1

原创 kettle实例--数据转换-不一致数据的转换

在“第一个步骤”处的下拉框中选择“字段选择”控件,“第二个步骤”处的下拉框中选择“表输入3”控件,用于将“字段选择”控件流中的数据与“表输入3”控件流中的数据进行合并连接;在“第一个步骤的连接字段”和“第二个步骤的连接字段”处添加连接字段,这里添加的连接字段是brand、model,用于将“字段选择”控件流中的字段brand、model与“表输入3”控件流中的字段brand、model进行连接;双击“表输入”控件,进入“表输入”配置界面,具体如图所示。双击“表输入2”控件,进入“表输入”配置界面。

2022-10-25 17:14:01 1693

原创 kettle实例--数据转换-多数据源合并

添加需要改变元数据的字段,将“字段选择”流中的字段进行一致性处理,即单击【获取改变的字段】按钮,获取要改变的字段,并在“Binary to Normal”一列的下拉框中,选择为“是”,使得CSV文件company_a.csv中数据的字段类型与数据表company_b中数据的字段类型一致。双击“增加序列”控件,进入“增加序列”配置界面,在“值的名称”处,指定要增加列的列名,这里使用默认的名称,即valuename,其它配置项不作任何改变;双击“表输出”控件,进入“表输出”控件的配置界面。

2022-10-25 16:58:15 1432

原创 kettle实例--高级转换-利用janino计算Java表达式

4)在【User defined Java expression】对话框中,设置参数,编辑Java表达式,统计学生各科考试成绩总分,并按照四舍五入计算平均分,分别保存在“总分”“平均分”字段中,步骤如下。在【利用Janino计算Java表达式】转换工程中,单击【利用Janino计算Java表达式】组件,再单击工作区上方的预览图标。预览执行利用Janino计算Java表达式后的结果数据,如图所示。在【Fields】表中设置参数,如图所示,此时完成【利用Janino计算Java表达式】组件的参数设置。

2022-10-25 16:31:16 568

原创 kettle--高级转换-公式运用

在【公式】转换工程中,单击【核心对象】选项卡,单击展开【脚本】对象,选中【公式】组件,并拖曳到右边工作区中。由【Excel输入】组件指向【公式】组件,建立节点连接,如图所示。在【字段】表中,添加【总分】【评优】两个新字段,分别单击两个新字段所在的单元格,编辑公式。编辑【总分】字段,如图所示。5)在图【公式】对话框中,设置参数,利用公式计算总分,根据总分标注成绩优秀的学生。6)设置【字段】表参数,如图所示,此时完成【公式】组件的参数设置。4)双击【公式】组件,弹出【公式】对话框,如图所示。

2022-10-25 16:19:55 2290

原创 kettle实例--高级转换-单变量统计

在【Univariate statistics】对话框中,设置参数,对学生语文、数学考试成绩进行统计。(2) 在【Input fields andderived stats】表中,设置统计的各个字段参数,如图所示,此时完成【单变量统计】组件的参数设置。创建【Excel输入】组件,如图所示,设置参数,导入“2018年上学期期末考试成绩.xls”文件。双击【单变量统计】组件,弹出【Univariate statistics】对话框,如图所示。点击单变量统计按钮,点击上方预览按钮,查看统计数据。

2022-10-25 16:08:45 1076

原创 kettle实例--高级转换-记录集合并

在图【多路数据合并连接Multiway merge join】转换工程中,单击【核心对象】选项卡,展开【连接】对象,选中【Multiway merge join】组件,并拖曳到右边工作区中,并由【语文成绩排序】【数学成绩排序】【英语成绩排序】组件分别指向【Multiway merge join】组件,分别建立3个节点连接,如图所示。(1) 接着配置【排序记录】组件,再分别由【成绩】组件指向【排序记录】组件,建立节点连接,设置排序参数,对“学号”字段进行排序。1. 建立【多路数据合并连接】转换工程。

2022-10-25 15:56:12 1771

原创 kettle实例-高级转换-数据合并

(1)建立【多路数据合并连接】转换工程。加入Excel输入控件,排序记录,记录集连接,计算器以及字段选择。后点击计算器控件,添加新字段来计算总成绩,字段A和B分别添加英语和语文,计算公式选择A+B。最后点击字段选择控件,在选择和修改一栏选择加入序号,学号,英语,语文,总成绩,如图。点击排序记录,在字段一栏添加字段名称为学号,如图。点击工作表,点击获取工作表名称,导入工作表。点击字段,点击获取来自头部的字段,导入字段。(3) 最后点击上方运行按钮,运行如图结果。(2)设置【多路数据合并连接】参数。

2022-10-21 18:33:21 1208

原创 kettle实例-数据的批量加载

勾选“使用批量插入”的复选框,用于批量加载数据至目标表中,如图所示。依次选中“源字段”选项框的字段和“目标字段”选项框的字段,再单击【Add】按钮,将一对映射字段添加至“映射”选项框中,若“源字段”选项框的字段和“目标字段”选项框的字段相同,则可以单击【猜一猜】按钮,让Kettle自动实现映射,具体如图所示。单击转换工作区顶部的 按钮,运行创建的转换batch_load,实现将CSV文件weibo_user.csv中的数据批量加载到数据表weibo_user中,“表输出”界面最终显示的效果如图所示。

2022-10-19 23:13:50 1120

原创 kettle实例-增量加载

单击【获取和更新字段】按钮,用来指定需要更新的字段,具体如图所示。在SQL框中编写查询数据表incremental_source的SQL语句,然后单击【预览】按钮,查看数据表incremental_source的数据是否成功从MySQL数据库中抽取到表输入流中,具体如图所示。在SQL框中编写查询数据表incremental_source的SQL语句,然后单击【预览】按钮,查看数据表incremental_source的数据是否成功从MySQL数据库中抽取到表输入流中,具体如图所示。

2022-10-19 18:22:37 176

原创 kettle实例-数据的加载机制-全量加载

单击目标表处的【浏览】按钮,选择输出的目标表,即数据表full_target,这里不需要新建数据库连接,只需要选择已创建的数据库连接即可,如图所示。单击转换工作区顶部的运行按钮,运行创建的转换full_load,实现将数据表full_source中的数据全量加载到数据表full_target中,如图所示。双击“表输入”控件,进入“表输入”配置界面,在SQL框中编写查询full_source数据表的SQL语句,如图所示。双击“执行SQL脚本”控件,进入“执行SQL语句”界面,具体如图所示。

2022-10-19 11:49:36 97

原创 kettle实例-数据的商务规则计算(各省份的日销售额)

单击【输入字段映射】按钮,弹出“映射匹配”对话框,依次选中“源字段”选项框的字段和“目标字段”选项框对应的字段,再单击【Add】按钮,将一对映射字段添加至“映射”选项框中,若“源字段”选项框的字段和“目标字段”选项框的字段相同,则可以单击【猜一猜】按钮,让Kettle自动实现映射,用于将数据表company_new中的字段salesArea、total与目标数据表中的字段salesArea、total进行匹配,具体如图所示。在“聚合”处添加一个新字段total,用于存储各省份的手机销售总额,具体如图所示。

2022-10-19 11:10:04 679 1

原创 Kettle实例-数据检验-数据规范化处理

单击【增加检验】按钮,弹出“输入检验的名称”窗口,在该窗口中添加检验名称date_verify用于校验如期,添加后单击【确定】按钮关闭“输入检验的名称”窗口。6.单击【增加检验】按钮,弹出“输入检验的名称”窗口,在该窗口中添加检验名称price_verify用于校验产品单价,添加后单击【确定】按钮关闭“输入检验的名称”窗口。5.单击【增加检验】按钮,弹出“输入检验的名称”窗口,在该窗口中添加检验名称name_verify用于校验商品名称,添加后单击【确定】按钮关闭“输入检验的名称”窗口。

2022-10-11 18:35:14 4479

原创 kettle实例-数据一致性处理设置定时

从控制台的日志输出可以看出,作业每隔5秒会执行一次转换实现数据同步并且在执行过程中会记录处理的数据量以及当前时间段处理的数据条数。2.双击“Start”控件,进入“作业定时调度”界面;勾选“重复”处的复选框;单击“类型”处的下拉框,选择“时间间隔”定时,并设置以秒计算的间隔是5,以分钟计算的间隔是0。1.通过使用Kettle工具,创建一个作业data _consistency_job,并添加“Start”控件、“转换”控件以及作业跳连接线。3.双击“转换”控件,进入“转换”界面;

2022-10-11 18:24:37 829 1

原创 kettle实例--数据检验-数据一致性处理

单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。单击【获取字段】按钮,用来指定查询数据所需要的关键字,这里选择的是Personnel_ Information_New数据表中的USERID字段和输入流里面的USERID字段;1.使用Kettle工具,创建一个转换data _consistency,并添加“表输入”控件、“值映射”控件、“插入/更新”控件以及Hop跳连接线。2.双击“表输入”控件,进入“表输入”配置界面;单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。

2022-10-11 18:20:33 1545

原创 kettle实例-异常值处理-修补异常值

1.通过使用Kettle工具,创建一个转换fill_unusual_value,并添加“表输入”控件、“过滤记录”控件、“空操作(什么也不做)”控件、“设置值为NULL”控件、“合并记录”控件、“替换NULL值”控件、字段选择控件以及Hop跳连接线。在“发送false数据给步骤:”处的下拉框中选择“空操作(什么也不做)”,将异常值放在“空操作(什么也不做)”控件中。在“旧数据源:”处的下拉框选择“设置为NULL值”,“新数据源:”处的下拉框选择“空操作(什么也不做)2”;

2022-10-11 18:08:50 2228

原创 kettle实例-异常值处理-删除包含异常值的记录

在“条件”处设置过滤的条件,由于文件temperature.txt中time为6:30的温度是137摄氏度,不在非异常值的范围内,因此属于异常值,我们应该将过滤字段设置为temperature、过滤值为137。在“发送false数据给步骤:”处的下拉框中选择“空操作(什么也不做)”,将非异常值放在“空操作(什么也不做)”控件中。先单击【浏览】按钮,选择要去除异常值的文件temperature.txt,然后单击【增加】按钮,将要去除异常值的文件temperature.txt添加到“文本文件输入”控件中。

2022-10-11 17:58:31 1268

原创 kettle实例-缺失值处理-填充缺失值

在“发送false数据给步骤:”下拉框中选择“空操作(什么也不做)2”,将workclass字段值不为Private的数据放在“空操作(什么也不做)2”控件中。1.通过使用Kettle工具,创建一个转换fill_missing_value,并添加“文本文件输入”控件、“过滤记录”控件、“空操作(什么也不做)”控件、“替换NULL值”控件、“合并记录”控件、“字段选择”控件以及Hop跳连接线。11. 在”旧数据源:”下拉框选择“替换NULL值”,“新数据源:”下拉框选择“空操作(什么也不做)2”;

2022-10-11 17:36:37 1319

原创 Kettle实例-缺失值处理-去除缺失值

在“条件”处设置过滤的条件,过滤掉有缺失值的数据字段(这里是过滤Name、Pay和Area字段中的缺失值);1.通过使用Kettle工具,创建一个转换delete_missing_value,并添加“文本文件输入”控件、“字段选择”控件、“过滤记录”控件、“Excel输出”控件、“空操作(什么也不做)”控件以及Hop跳连接线。7.选择和修改”选项卡的“字段”处手动添加文本文件输入控件输出的所有数据字段,也可以单击【获取选择的字段】按钮,Kettle工具自动检索并添加文本文件输入控件输出的所有数据字段。

2022-10-11 17:22:32 2850

原创 Kettle实例-数据去重-完全去重

10.选中“唯一行(哈希值)”控件,单击执行结果窗口的“Preview data”选项卡,查看是否消除文件people.txt中不完全重复的数据。1.通过使用Kettle工具,创建一个转换,并添加“文本文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。8.在“用来比较的字段”处,添加要比较去重的字段,即Name、UserLevel、Phone字段。7. 双击“唯一行(哈希值)”控件,进入“唯一行(哈希值)”配置界面。2. 双击“文本文件输入”控件,进入“文本文件输入”配置界面。

2022-10-11 17:08:19 711

原创 Kettle案例——数据去重-不完全去重

再单击【获取字段】按钮,Kettle会自动检索CSV文件,并对文件中的字段类型、格式、长度、精度等属性进行分析。7.选中“唯一行(哈希值)”控件,单击执行结果窗口的“Preview data”选项卡,查看是否消除CSV文件merge.csv中完全重复的数据。1.通过使用Kettle工具,创建一个转换,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。5. 在“用来比较的字段”处,添加要去重的字段,这里可以单击【获取】按钮,获取要去重的字段。

2022-10-11 16:37:47 546

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除