写在前面:上一篇博客写了这个项目的Task2——即EDA,今天继续介绍Task3——特征工程。T3开始看着有点吃力了,因为python 的基础太差了,我很担心我能不能坚持完T4(TT)。不过在这个学习过程中,我的方法基本是理解任务目的,看代码,查函数,然后验证逻辑。其实如果时间更充裕的话可以自己半默写一下代码,下面还是结合教程具体记录下我的小小收获吧。(由于主要是理解为主,所以本博文还是要结合教程一起看,才比较有收获吧。)
直接附上整个项目链接吧:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl
************************************************我是分界**************************************************************************************
Task3:特征工程
内容:这个过程是在EDA后对数据有了一定的了解,然后进行数据预处理、特征交互、编码与选择等操作,可以分为7个部分。
第一部分:数据填充
此部分别叫简单,就是对EDA过程中的缺失值进行处理,主要用fillna这个函数进行填充,并且可以选择median(均值填充)和mode(众数填充)的方法。</