kettle实战项目精选(一)流感数据预处理与数据重塑

要求:
#1.读取2004-2016年的流感数据,并拼接为一个数据框
#2.读入人口数据,按年份和地区对流感数据填充人口数
数据集链接:https://download.csdn.net/download/qq_44326412/86792828

Kettle转换总流程图:
在这里插入图片描述

1、读取所有年份csv文件名:
在这里插入图片描述

2、year_CSV文件输入
在这里插入图片描述

3、字段选择与清洗,去除不需要的字段,字段重命名。
在这里插入图片描述

4、过滤脏数据,去除不需要的行
在这里插入图片描述

5、字符串重塑
在这里插入图片描述

6、NULL值处理,替换NULL值
在这里插入图片描述

7、增加列族,index
在这里插入图片描述

8、JavaScript代码,增加年份
在这里插入图片描述

9、读另一个数据源,人口csv文件
在这里插入图片描述

10、人口年份数据的行转列操作
在这里插入图片描述

11、清洗人口数据年份字符串
在这里插入图片描述

12、过滤人口数据脏数据
在这里插入图片描述

13、人口数据地区字段清洗
在这里插入图片描述

14、对两个数据表,进行笛卡尔积操作,达到合并数据目的在这里插入图片描述

15、对合并的数据按照index、year进行排序
在这里插入图片描述

16、字段顺序调整
在这里插入图片描述

17、输出为Excel文件(也可以选择其他类型输出,例如Mysql等等)
在这里插入图片描述

项目最终结果:
在这里插入图片描述
在这里插入图片描述

  • 3
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 11
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值