一、Excel输入
1.创建转换
将要处理的文件保存到Excel表中,然后打开kettle创建一个转换并命名,拖入“Excel输入”控件。
2.配置Excel输入控件
浏览导入Excel文件。单击【浏览(B)…】按钮,在计算机上浏览并导入“物理成绩.xls”文件,如图所示。添加并编辑Excel文件。单击【增加】按钮,将浏览导入至【文件/目录】输入框中的“E:\课件\ETL\55220-ETL数据整合与处理(Kettle)-实验数据和工程\第2章\数据”文件,添加至【选中的文件】表中,如图所示。
在【工作表】选项卡中,设置导入的Excel文件的工作表参数
在【字段】选项卡,设置“物理成绩.xls”文件中字段的参数。获取字段,单击【获取头部数据的字段…】按钮,添加字段到【字段】表中设置字段参数,对字段参数进行设置,如图所示。
3.结果预览
设置好字段参数后,单击【预览记录】按钮,弹出【预览数据数量】对话框,要预览的行数采用默认值,并单击【确定】按钮。 弹出【预览数据】对话框,展示Excel输入的数据,如图所示。
二、生成记录
1.创建【生成记录】转换工程
2.配置【生成记录】参数
双击【生成记录】组件,弹出创建【生成记录】对话框,在【字段】表中,对各字段的参数进行设置。如图所示:
3.预览结果数据
单击【预览(P)】按钮,弹出【输入预览记录数】对话框,预览记录数采用默认值,单击【确定】按钮。弹出【预览数据】对话框,展示生成记录的数据,如图所示
三、生成随机数
1. 建立一个转换,添加生成随机数控件
2. 双击【生成随机数】组件,弹出【生成随机值】对话框, 单击【类型】参数输入框,弹出【选择数据类型】对话框,选择【Random Message Authentication Code(HmacMD5)】类型,如图所示。
3.在【生成随机数】转换工程中,单击【生成随机数】组件,再单击工作区上方的 图标。弹出【转换调试窗口】对话框,展示生成随机数的数据,如图所示。
4.单击【快速启动】按钮,弹出【预览数据】对话框,展示生成随机数的授权码数据,如图所示。
四、获取系统信息
1.建立转换,添加获取系统信息组件。
2.双击【获取系统信息】组件,弹出【获取系统信息】对话框,设置参数,如图所示。
3.单击【浏览记录】按钮,弹出【Enter preview size】对话框,预览记录数采用默认值,单击【确定】按钮。弹出【预览数据】对话框,展示获取系统信息的数据,如图所示
五、排序记录
1..创建转换
创建新的转换添加【Excel输入】和【排序记录】控件。结果如图所示:
2.设置参数
双击【Excel输入】组件,设置参数,导入“2019年11月月考数学成绩.xls”文件,预览数据,如图所示。
双击【排序记录】组件,弹出【排序记录】对话框,在【排序目录】对话框中,设置参数,将“数学”字段的数据按照从低到高进行排序,如图所示。
3.结果预览
在【排序记录】排序工程中,单击【排序记录】组件,再单击工作区上方的 图标。预览数据,展示排序后的数据,如图所示。
六、去除重复
1.创建转换
创建新转换。添加【Excel输入】、【排序记录】和【去除重复记录】组件,如图所示;
2.设置参数
双击【Excel输入】组件,设置参数,导入“2019年11月月考数学成绩.xls”文件。如图所示;
双击【排序记录】组件,对“学号”字段按照升序进行排序后预览数据,如图所示,除了“序号”字段数据外,“学号”分别为“201709023”“201709028”“201709030”的数据各有两条记录,并且对应的“数学”考试成绩的数据也相同。
双击【去除重复记录】组件,弹出【去除重复记录】对话框,在【去除重复记录】对话框中,设置参数,去除学号相同的记录,如图所示;
3.结果预览
单击【去除重复记录】组件,再单击工作区上方的 图标即可预览去除重复记录后的数据,如图所示。
七、替换NULL值
1.创建转换
创建新转换,添加【Excel输入】和【替换NULL值】控件,如图所示;
2.设置参数
双击【Excel输入】组件,设置参数,导入“2019年11月月考英语成绩.xls”文件,预览数据,“学号”字段数据为“201709007”所对应的“英语”字段数据为“<null>”(即NULL),如图所示。
双击【替换NULL值】组件,弹出【替换NULL值】对话框,在【替换NULL值】对话框中,设置参数,用“0”替换“英语”字段的数据“null” ,如图所示;
3.预览结果数据
单击【替换NULL值】组件,再单击工作区上方的 图标,预览替换NULL值后的数据,如图所示