主要内容:
1. 查看缺失值2. 丢弃缺失值3. 缺失值替换策略
对于数据分析、数据挖掘工作而言,缺失数据不得不说是一个很让人头疼的东西。
而且缺失数据的复杂性也导致了我们往往要从多种处理方式中选择最佳的方案。
- 丢弃:有时我们可以简单粗暴地直接删掉,这样后续的分析、挖掘都不用考虑兼容缺失数据;
- 补全:但有时因为数据量不足或者其他原因,如果删除了有数据缺失的行或列很可能会对分析结果、模型训练产生重大影响,这时就得考虑对其进行补全;
- 真值转换:有时候我们会把数据缺失也当做一种规律来分析,这时就需要做一些转换,将一个变量的多个水平转换为多个变量的真假值。
- 不处理:这种情况下就需要我们的模型或者分析过程对缺失值有较好的鲁棒性。
接下来我们看看在Python中我们是如何完成这些任务的。
我们先导入后边要用到的库,并生成一些缺失数据。可以看到,这里有两个缺失数据。注意,在pandas以及numpy中,缺失值用NaN表示,Python原生支持的缺失值表示方式为None,另外一些关系型数据库常用NULL来表示缺失值。
1. 查看缺失值
我们使用isnull()方法可以查看数据框中哪些值是缺失的&#x