要求:
#1.读取2004-2016年的流感数据,并拼接为一个数据框
#2.读入人口数据,按年份和地区对流感数据填充人口数
数据集链接:https://download.csdn.net/download/qq_44326412/86792828
Kettle转换总流程图:
1、读取所有年份csv文件名:
2、year_CSV文件输入
3、字段选择与清洗,去除不需要的字段,字段重命名。
4、过滤脏数据,去除不需要的行
5、字符串重塑
6、NULL值处理,替换NULL值
7、增加列族,index
8、JavaScript代码,增加年份
9、读另一个数据源,人口csv文件
10、人口年份数据的行转列操作
11、清洗人口数据年份字符串
12、过滤人口数据脏数据
13、人口数据地区字段清洗
14、对两个数据表,进行笛卡尔积操作,达到合并数据目的
15、对合并的数据按照index、year进行排序
16、字段顺序调整
17、输出为Excel文件(也可以选择其他类型输出,例如Mysql等等)
项目最终结果: