自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 数据的商务规则计算

单击【输入字段映射】按钮,弹出“映射匹配”对话框,依次选中“源字段”选项框的字段和“目标字段”选项框对应的字段,再单击【Add】按钮,将一对映射字段添加至“映射”选项框中,若“源字段”选项框的字段和“目标字段”选项框的字段相同,则可以单击【猜一猜】按钮,让Kettle自动实现映射,用于将数据表company_new中的字段salesArea、total与目标数据表中的字段salesArea、total进行匹配。在“计算”处的下拉框中选择“A*B”,即表示将字段A与字段B进行相乘计算,具体如图所示。

2022-12-01 23:05:56 131

原创 数据粒度的转换

在“第一个步骤的连接字段”和“第二个步骤的连接字段”处分别添加连接字段,这里添加的连接字段是salesArea和city,将“排序记录”控件流中的数据与“排序记录2”控件流中的数据进行合并连接;单击“数据库字段”选项卡;单击【输入字段映射】按钮,弹出“映射匹配”对话框,依次选中“源字段”选项框的字段和“目标字段”选项框对应的字段,再单击【Add】按钮,将一对映射字段添加至“映射”选项框中,若“源字段”选项框的字段和“目标字段”选项框的字段相同,则可以单击【猜一猜】按钮,让Kettle自动实现映射。

2022-12-01 22:40:38 371

原创 不一致数据的转换

在“第一个步骤”处的下拉框中选择“字段选择”控件,“第二个步骤”处的下拉框中选择“表输入3”控件,用于将“字段选择”控件流中的数据与“表输入3”控件流中的数据进行合并连接;在“第一个步骤的连接字段”和“第二个步骤的连接字段”处添加连接字段,这里添加的连接字段是brand、model,用于将“字段选择”控件流中的字段brand、model与“表输入3”控件流中的字段brand、model进行连接;在“连接类型”处的下拉框选择连接类型,这里选择的RIGHT OUTER,即右外连接,具体如图所示。

2022-12-01 22:06:55 119

原创 多数据源合并

添加需要改变元数据的字段,将“字段选择”流中的字段进行一致性处理,即单击【获取改变的字段】按钮,获取要改变的字段,并在“Binary to Normal”一列的下拉框中,选择为“是”,使得CSV文件company_a.csv中数据的字段类型与数据表company_b中数据的字段类型一致。双击“增加序列”控件,进入“增加序列”配置界面,在“值的名称”处,指定要增加列的列名,这里使用默认的名称,即valuename,其它配置项不作任何改变;双击“表输出”控件,进入“表输出”控件的配置界面。

2022-12-01 12:45:10 471

原创 【无标题】

单击【增加检验】按钮,弹出“输入检验的名称”窗口,在该窗口中添加检验名称date_verify用于校验如期,添加后单击【确定】按钮关闭“输入检验的名称”窗口。单击【增加检验】按钮,弹出“输入检验的名称”窗口,在该窗口中添加检验名称price_verify用于校验产品单价,添加后单击【确定】按钮关闭“输入检验的名称”窗口。单击【增加检验】按钮,弹出“输入检验的名称”窗口,在该窗口中添加检验名称name_verify用于校验商品名称,添加后单击【确定】按钮关闭“输入检验的名称”窗口。

2022-12-01 11:15:50 65

原创 数据一致性处理

通过使用Kettle工具,创建一个作业data _consistency_job,并添加“Start”控件、“转换”控件以及作业跳连接线。 双击“Start”控件,进入“作业定时调度”界面;勾选“重复”处的复选框;单击“类型”处的下拉框,选择“时间间隔”定时,并设置以秒计算的间隔是5,以分钟计算的间隔是0。双击“转换”控件,进入“转换”界面;单击【浏览】按钮,选择添加转换data _consistency至作业中。单击作业工作区顶部的运行按钮,运行创建的作业data _consistency_job。 从控

2022-12-01 10:21:35 45

原创 数据一致性处理

单击【获取字段】按钮,用来指定查询数据所需要的关键字,这里选择的是Personnel_ Information_New数据表中的USERID字段和输入流里面的USERID字段;使用Kettle工具,创建一个转换data _consistency,并添加“表输入”控件、“值映射”控件、“插入/更新”控件以及Hop跳连接线。单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。双击“表输入”控件,进入“表输入”配置界面;单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。

2022-12-01 09:22:07 128

原创 修补异常值

通过使用Kettle工具,创建一个转换fill_unusual_value,并添加“表输入”控件、“过滤记录”控件、“空操作(什么也不做)”控件、“设置值为NULL”控件、“合并记录”控件、“替换NULL值”控件、字段选择控件以及Hop跳连接线。选中“空操作(什么也不做)”控件,然后单击转换工作区顶部的 按钮,预览“空操作(什么也不做)”控件中的数据,id为15的这条数据,Height字段为260,260不在非异常值范围[114,226]内,因此该条数据为异常数据。

2022-11-30 22:55:14 48

原创 删除包含异常值的记录

在“发送true数据给步骤:”处的下拉框中选择“空操作(什么也不做)2”,将异常值放在“空操作(什么也不做)2”控件中;在“发送false数据给步骤:”处的下拉框中选择“空操作(什么也不做)”,将非异常值放在“空操作(什么也不做)”控件中。在“条件”处设置过滤的条件,由于文件temperature.txt中time为6:30的温度是137摄氏度,不在非异常值的范围内,因此属于异常值,我们应该将过滤字段设置为temperature、过滤值为137。双击“文本文件输入”控件,进入“文本文件输入”配置界面。

2022-11-30 22:40:18 97

原创 填充缺失值

通过使用Kettle工具,创建一个转换fill_missing_value,并添加“文本文件输入”控件、“过滤记录”控件、“空操作(什么也不做)”控件、“替换NULL值”控件、“合并记录”控件、“字段选择”控件以及Hop跳连接线。勾选“选择字段”处的复选框,并在“字段”框添加字段为hours_per_week,值替换为44(44是字段为hours_per_week中所有值相加求的均值,这里指用44替换字段hours_per_week中的NULL值)。双击“字段选择”控件,进入“选择/改名值”配置界面。

2022-11-30 22:17:50 52

原创 去除缺失值

在“发送false数据给步骤:”处的下拉框中选择“Excel输出”,将没有缺失值的行数据输出到Excel文件中。通过使用Kettle工具,创建一个转换delete_missing_value,并添加“文本文件输入”控件、“字段选择”控件、“过滤记录”控件、“Excel输出”控件、“空操作(什么也不做)”控件以及Hop跳连接线。在“选择和修改”选项卡的“字段”处手动添加文本文件输入控件输出的所有数据字段,也可以单击【获取选择的字段】按钮,Kettle工具自动检索并添加文本文件输入控件输出的所有数据字段。

2022-11-30 20:56:28 61

原创 数据去重——不完全去重

通过使用Kettle工具,创建一个转换repeat_transform,并添加“文本文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。单击“内容”选项卡;选中“唯一行(哈希值)”控件,单击执行结果窗口的“Preview data”选项卡,查看是否消除文件people.txt中不完全重复的数据。在“用来比较的字段”处,添加要比较去重的字段,即Name、UserLevel、Phone字段。单击“字段”选项卡;双击“唯一行(哈希值)”控件,进入“唯一行(哈希值)”配置界面。

2022-11-30 20:20:45 71

原创 数据去重——完全去重

通过使用Kettle工具,创建一个转换repeat_transform,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。选中“唯一行(哈希值)”控件,单击执行结果窗口的“Preview data”选项卡,查看是否消除CSV文件merge.csv中完全重复的数据。在“用来比较的字段”处,添加要去重的字段,这里可以单击【获取】按钮,获取要去重的字段。双击“CSV文件输入”控件,进入“CSV文件输入”配置界面,具体如图所示。

2022-11-30 18:01:06 66

原创 抽取非关系型数据库的数据

单击“Input options”选项卡,指定数据库和数据表,即在“Database”处添加数据库mongodb_mysql,在“Collection”处添加集合Personal information。通过使用Kettle工具,创建一个转换mongodb_mysql_extract,并添加“MongoDB input”控件、“JSON input”控件、“表输出”控件以及Hop跳连接线,具体如图所示。单击“数据库字段”选项卡;双击“JSON input”控件,进入“JSON input”配置界面。

2022-11-30 17:16:56 273

原创 抽取关系型数据库的数据

在SQL框中编写查询数据表student的SQL语句,然后单击【预览】按钮,查看数据表student的数据是否成功从SQL Server数据库中抽取到表输入流中。单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。通过使用Kettle工具,创建一个转换mssql_mysql,并添加“表输入”控件、“表输出”控件以及Hop跳连接线,具体如图所示。单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。

2022-11-30 11:54:36 242

原创 JSON文件的数据抽取

勾选“指定数据库字段”的复选框,用于将数据表json的字段与JSON文件json_extract.json中的字段进行匹配。单击“字段”选项卡,添加要抽取的数据字段(这里采用分层抽取数据字段,先抽取id和data字段,再从data字段中抽取field和value字段)。单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。单击“字段”选项卡;双击“JSON input”控件,进入“JSON输入”界面。

2022-11-30 10:34:28 1259

原创 XML文件的数据抽取

通过使用Kettle工具,创建一个转换转换xml_extract,并添加“Get data from XML”控件、“表输出”控件以及Hop跳连接线,具体如图所示。单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。单击“内容”选项卡,单击【获取XML文档的所有路径】选择循环读取路径,即/AllRows/Rows/Row。单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。

2022-11-30 09:25:28 761

原创 抽取Web数据

在“Java代码”控件中的代码框编写抽取HTML网页数据的Java脚本代码。单击“Java代码”控件中的“字段”选项卡,用于添加新生成的字段;通过使用Kettle工具,创建一个转换转换html_extract,并添加“自定义常量数据”输入控件、“HTTP client”查询控件和“Java代码”脚本控件,,具体如图所示。双击“Code Snippits”→ “Common use”→ “Main”,添加Java脚本代码的主方法,即程序入口。双击“自定义常量数据”控件,进入“自定义常量数据”界面。

2022-11-29 23:59:46 143

原创 CSV文件的抽取

单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。通过使用Kettle工具,创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线,具体如图所示。通过Kettle工具抽取CSV文件csv_extract.csv中的数据并保存至数据库extract的数据表csv中。单击【预览】按钮,查看文件csv_extract.csv的数据是否抽取到CSV文件输入流中。

2022-11-29 22:56:09 769

原创 TSV文件的抽取

通过使用Kettle工具,创建一个转换tsv_extract,添加“文本文件输入”控件、“表输出”控件以及Hop跳连接线

2022-11-29 22:42:10 175 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除