前言:
数据往往也是以多个文件的形式出现,有的数据还会分散在多个子文件夹。因此多文件合并数据也是Kettle开发中非常常见的操作。
数据准备:
在Test_Input目录下准备两个Excel文件,其中一个放在文件夹下。
Excel1:
Excel2:
需求背景:
将Test_Input目录下以“04 多文件合并” 开头的所有Excel数据合并到同一个Excel。
流程
1) 新建转换:选择“转换”—>单击鼠标右键—>新建
2)画转换流程图:在“输入”选项下找到“Excel输入”拖到右边画布区;在“输出”选项下找到“Excel输出”拖到右边画布区;按住shift键,长按鼠标左键移动鼠标,可以连接两个控件,得到流程图如下。
3)设置控件:
a. 双击“Excel输入”,首先选择表格类型,本案例中的Excel属性中后缀为“ .xlsx”
微软的Excel目前有两种后缀名的文件分别为:xls和xlsx.
xls:2007年之前
xlsx:2007年之后
表格类型(引擎):
若Excel后缀名为.xls,则设为“Excel 97-2003 XLS (JXL)”;
若Excel后缀名为.xlsx,则为“Excel 2007 XLSX (Apache POl)”
根据excel文件的后缀判断表格类型选项设为“Excel 2007 XLSX (Apache POl)”。
单击“浏览”,选择excel "04 多文件合并2",点击”添加“。
在文件名”04 多文件合并“的后面加上通配符".*",设置”是否包含子目录“设为”是“。
点击”字段“--->获取来自头部数据的字段,选择多余字段,右键”删除选中的行“,点击”确定“。
b. 双击“Excel输出”,点击”浏览“,选择合并后的excel存放路径,命名文件名。
获取字段,设置字段类型,点击”确定“。
备注:
Excel的输出有两种控件可供选择:
1. ”Excel输出“后缀是.xls
2. ”Microsoft Excel输出“后缀是.xlsx
4)点击启动,提示保存文件,绿色对勾表示成功。
打开合并的Excel,查看结果: