pandas 任务二 数据的清洗及特征值处理
一、缺失值观察与处理
主要的结构就是 df.isnull().sum()
最后出现的结果就是显示各个属性值下对应的数据个数
二、对缺失值进行处理
基本结构就是 df[df[‘属性’].isnull()]=赋值
运行的结果就是在缺失值的地方由NaN变为0
三、重复值的观察与处理
基本结构为:df[f.duplicates()]
最后显示出来的是重复数据
四、对重复数据进行处理
删除重复的数据
五、特征值的观察与处理
基本原理就是进行封箱操作,然后对数据进行相应的处理。
这里有用到cut和qcut函数。我的理解就是根据对应的特征值下的数据按照相应的分类顺序,最后对这类数据赋予值并存在新的特征值下用来区分。
例如把依据变量Age平均分成5个年龄段,并用变量1,2,3,4,5表示出来:
最后就是按照相应的分类将相应的数据存在特征AgeBand下面。
后面的划分类似,就是qcut是按照变量的个数等分的划分,cut是按照变量的值划分,前提是会进行被排序。
六、对文本变量进行转换以及简单的转换为one-hot编码
查看文本变量名及种类
运行的结果就是显示各个数据及种类
这是法二,不同的是显示的是一个列表。
接下来是替代:用到了replace函数和map函数。区别就是前者的参数是列表,而后者的参数是字典。
最后,简单的one-hot转换
最后可以将数据进行相应的拆分最终形成one-hot编码。
七、总结
在本次学习中,我知道了数据的清洗及特征值处理,进行了缺失值的观察,即df.isnull().sum(),及对缺失值进行处理,对缺失的地方赋值其他的值,然后学习了重复值的观察与处理,接着是特征值的观察与处理,最后了解了一些one-hot的知识但不是特别的精通,还需要自己后期取多多学习进行补充。