《数据清洗》第六章数据转换

最新推荐文章于 2024-05-11 15:32:20 发布

Yauy

最新推荐文章于 2024-05-11 15:32:20 发布

阅读量3.5k

点赞数 1

文章标签： etl

本文链接：https://blog.csdn.net/qq_45756732/article/details/121423436

版权

1.对文本文件personnel_data.txt中的数据进行数据粒度的转换，即将文本文件personnel_data.txt中字段为household_register的数据统一成省份，并输出到文本文件personnel_data_new.txt中

1.2转换generalization_merge

1.3.4运行作业generalization

1.3.5查看文本文件

2.对文本文件personnel_data_new.txt中字段为salary的数据进行商务规则计算，即计算每个人的月薪（以22天工作日计算），最终输出到文本文件personnel_data_monthly_salary.txt中

2.6 运行转换monthly_salary

2.7查看文本文件

1.对文本文件personnel_data.txt中的数据进行数据粒度的转换，即将文本文件personnel_data.txt中字段为household_register的数据统一成省份，并输出到文本文件personnel_data_new.txt中

1.1转换granularity

1.1.1打开kettle工具，创建转换

创建转换granularity，添加“表输入”、“字段选择”、“排序记录”、“记录集连接”、“过滤记录”、“空操作”、“表输出”控件及hop跳连接线

1.1.2配置文本文件输入控件

进入“文本文件输入”界面，将要抽取的personnel_data.txt文件添加到generalization转换中

进入“内容”选项卡，在分隔符处清除默认分隔符“；”，在分隔符处插入一个制表符；取消勾选“头部”复选框

进入“字段”选项卡，根据personnel_data.txt文件的内容添加对应的字段名称，并指定数据类型

完成文本文件输入控件的配置

1.1.3配置“字段选择”控件

双击“字段选择”控件，进入“选择/改名值”界面，在“选择和修改”选项卡处添加字段名称

1.1.4配置“排序记录”控件

双击“排序记录”控件，进入“排序记录”界面，并在“字段”框中添加字段household_register，对其进行排序

1.1.5配置“表输入”控件

双击“表输入”控件，进入“表输入”界面，单击【新建】按钮，配置数据库连接

1.1.6配置“记录集连接”控件

双击“记录集连接”控件，进入“合并排序”界面，在“第一个步骤”处的下拉框中选择“排序记录”，“第二个步骤”处的下拉框中选择“排序记录2”；在“第一个步骤的连接字段”和“第二个步骤的连接字段”处添加连接字段，这里添加的连接字段是household_register和city；在“连接类型”处的下拉框选择连接类型，这里选择的LEFT OUTER，即左外连接

1.1.7配置“字段选择2”控件

双击“字段选择2”控件，进入“选择/改名值”界面，在“选择和修改”选项卡处添加字段名称，这里添加的是记录集连接流中的字段household_register和pid

1.18配置“排序记录3”控件

双击“排序记录 3”控件，进入“排序记录”界面，在“字段”框中添加字段pid，并对其进行排序

1.1.9配置“表输入2”控件

双击“表输入2”控件，进入“表输入2”界面，单击【新建】按钮，配置数据库连接

1.1.10配置“排序记录4”控件

双击“排序记录 4”控件，进入“排序记录”界面，在“字段”框中添加字段pid，并对其进行排序

1.1.11配置“记录集连接2”控件

双击“记录集连接2”控件，进入“合并排序”界面，在“第一个步骤”处的下拉框中选择“排序记录3”，“第二个步骤”处的下拉框中选择“排序记录4”；在“第一个步骤的连接字段”和“第二个步骤的连接字段”处添加连接字段，这里添加的连接字段是pid；在“连接类型”处的下拉框选择连接类型，这里选择的LEFT OUTER，即左外连接

1.1.12配置“字段选择3”控件

双击“字段选择3”控件，进入“选择/改名值”界面，在“选择和修改”选项卡处添加字段名称，这里添加的是记录集连接2流中的字段household_register和Provincial

1.1.13配置“表输出”控件

双击“表输出”控件，进入“表输出”配置界面，单击【新建】按钮，配置数据库连接

单击目标表右侧的【浏览】按钮，选择输出的目标表，即临时数据表personnel；勾选“指定数据库字段”的复选框。单击【输入字段映射】按钮，弹出“映射匹配”对话框，依次选中“源字段”选项框的字段和“目标字段”选项框的字段，再单击【Add】按钮，将一对映射字段添加至“映射”选项框中，若“源字段”选项框的字段和“目标字段”选项框的字段相同，则可以单击【猜一猜】按钮，让Kettle自动实现映射

1.2转换generalization_merge

1.2.1打开kettle工具，创建转换

创建一个转换generalization_merge，并添加“表输入”、“字段选择”、“排序记录”、“记录集连接”、“文本文件输出”控件

1.2.2配置“表输入”控件

双击“表输入”控件，进入“表输入”界面，单击【新建】按钮，配置数据库连接。在SQL框中编写SQL语句，用于查询数据表personnel中的数据

1.2.3配置“字段选择”控件

双击“字段选择”控件，进入“选择/改名值”界面，在“选择和修改”选项卡处添加字段名称

1.2.4配置“排序记录”控件

双击“排序记录”控件，进入“排序记录”界面，并在“字段”框中添加字段id，对其进行排序

1.2.5配置“文本文件输入”控件

双击“文本文件输入”控件，进入“文本文件输入”界面，单击【浏览】按钮，选择要抽取personnel_data.txt文件；单击【增加】按钮，将要抽取的personnel_data.txt文件添加到generalization_merge转换中

单击“内容”选项卡，在分隔符处清除默认分隔符“；”，单击【Insert TAB】按钮，在分隔符处插入一个制表符；取消勾选“头部”复选框

单击“字段”选项卡，根据personnel_data.txt文件的内容添加对应的字段名称，并指定数据类型

1.2.6配置“字段选择2”控件

双击“字段选择2”控件，进入“选择/改名值”界面，在“选择和修改”选项卡处添加字段名称

1.2.7配置“排序记录2”控件

双击“排序记录”控件，进入“排序记录”界面，并在“字段”框中添加字段id，对其进行排序

1.2.8配置“记录集连接”控件

双击“记录集连接”控件，进入“合并排序”界面，在“第一个步骤”处的下拉框中选择“排序记录”，“第二个步骤”处的下拉框中选择“排序记录2”；在“第一个步骤的连接字段”和“第二个步骤的连接字段”处添加连接字段，这里添加的连接字段是id；在“连接类型”处的下拉框选择连接类型，这里选择的LEFT OUTER，即左外连接

1.2.9配置“字段选择3”控件

双击“字段选择3”控件，进入“字段选择”界面，在“选择和修改”选项卡处添加字段名称，并将字段household_register_new改为household_register

1.2.10配置“文本文件输出”控件

双击“文本文件输出”控件，进入“文本文件输出”界面，单击“文件名称”右侧的【浏览】按钮，选择输出文件，即文本文件personnel_data_new，单击“内容”选项卡，进入“内容”界面，清除分隔符处的默认分隔符，单击【插入Tab】按钮，插入Tab分隔符。并在编码处的下拉框选择“UTF-8”编码，单击“字段”选项卡，进入“字段”界面，添加要输出的字段

1.3作业generalization

1.3.1打开kettle工具，创建转换

新建作业，使用Kettle工具，创建一个作业generalization，并添加“Start”、“转换”、“成功”控件

1.3.2配置“转换”控件

双击“转换”控件，进入“转换”界面，单击“Transformations”处的【浏览】按钮，选择添加转换generalization

1.3.3配置“转换2”控件

双击“转换2”控件，进入“转换”界面，单击“Transformations”处的【浏览】按钮，选择添加转generalization_merge

1.3.4运行作业generalization

运行作业generalization，实现将文本文件personnel_data.txt中字段为household_register的数据统一成省份（直辖市），并输出到文本文件personnel_data_new.txt中

1.3.5查看文本文件

通过文本编辑器工具，查看文本文件personnel_data_new.txt中的数据

2.对文本文件personnel_data_new.txt中字段为salary的数据进行商务规则计算，即计算每个人的月薪（以22天工作日计算），最终输出到文本文件personnel_data_monthly_salary.txt中

2.1打开kettle工具，创建转换

使用Kettle工具，创建一个转换monthly_salary，并添加“文本文件输入”、“增加常量”、“计算器”、“文本文件输出”控件

2.2配置“文本文件输入”控件

双击“文本文件输入”控件，进入“文本文件输入”界面，单击【浏览】按钮，选择要抽取personnel_data_new.txt文件；单击【增加】按钮，将要抽取的personnel_data_new.txt文件添加到转换monthly_salary中

单击“内容”选项卡，在分隔符处清除默认分隔符“；”，单击【Insert TAB】按钮，在分隔符处插入一个制表符；取消勾选“头部”复选框

单击“字段”选项卡，根据personnel_data.txt文件的内容添加对应的字段名称，并指定数据类型

2.3配置“增加常量”控件

双击“增加常量”控件，进入“增加常量”界面，在字段框中添加一个字段days，并给定一个值22

2.4配置“计算器”控件

双击“计算器”控件，进入“计算器”界面，在字段框中添加一个字段monthly_salary，用于存储月薪，该字段是由字段days和salary进行相乘所得

2.5配置“文本文件输出”控件

双击“文本文件输出”控件，进入“文本文件输出”界面，单击“文件名称”右侧的【浏览】按钮，选择输出文件，即文本文件personnel_data_monthly_salary

单击“内容”选项卡，进入“内容”界面，清除分隔符处的默认分隔符，单击【插入Tab】按钮，插入Tab分隔符，并在编码处的下拉框选择“UTF-8”编码，单击“字段”选项卡，进入“字段”界面，添加要输出的字段

2.6 运行转换monthly_salary

单击转换工作区顶部的start按钮，运行转换monthly_salary，实现将文本文件personnel_data_new.txt中字段为salary的数据进行商务规则计算，即计算每个人的月薪（以22天工作日计算），最终输出到文本文件

2.7查看文本文件

通过文本编辑器工具，查看文本文件personnel_data_monthly_salary.txt中的数据

Yauy

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《数据清洗》第六章数据转换

1.对文本文件personnel_data.txt中的数据进行数据粒度的转换，即将文本文件personnel_data.txt中字段为household_register的数据统一成省份，并输出到文本文件personnel_data_new.txt中1.1转换granularity1.1.1打开kettle工具，创建转换创建转换granularity，添加“表输入”、“字段选择”、“排序记录”、“记录集连接”、“过滤记录”、“空操作”、“表输出”控件及hop跳连接线1.1.2配置文本文件
复制链接

扫一扫