还原填充错误的缺失数据

手动方法 map() 函数映射

map(func)

import pandas as pd
import numpy as np

## -------
df = pd.DataFrame()
df['身高'] = [170, -1, 190, 150, 166]
df['体重'] = [50, 65, 70, 60, -1]
df.index = ['a', 'b', 'c', 'd', 'e']  ## 代表人名
## ----

结果:
在这里插入图片描述

很明显人的身高不可能是 -1 , 体重也不可能是 -1 , 这些数据属于有违反常识的数据值。 因此这里是误填充操作(或者可以理解成:异常值)

那么我们应该如何发现它们,并将其替换成缺失值形式呢?

df['身高'] = df['身高'].map(lambda x : x if x != -1 else None)
df['体重'] = df['体重'].map(lambda x : x if x != -1 else None)
df

结果:
在这里插入图片描述

自动方法 for循环 + replace() 替换

如果我们的数据列数较小的时候,我们可以进行手动填充,但是有许多数据列都存在缺失,那就需要进行自动填充以提高效率

columns = df[df == -1].columns.tolist()
for col in columns:
    df[col].replace([-1], [np.nan], inplace=True)
df

注意: 这里使用的 np.nan 和之前使用的 None 均可以代表缺失数据,None (是 python中的 ) , np.nan(是numpy中的)
在这里插入图片描述

说明

以上这些心得是在特征工程中体会得到的,如果数据存在缺失,那么对缺失值的操作不是很方便,不妨先将缺失值用一些独特的值来填充,然后进行特征构建组合,这样的话可能会破坏原始的数据结构,但是却能打开数据各个特征之间的关系,可以结合具体业务展开。
使用方法:

1. 缺失数据检查
2. 缺失数据用独特的值填充 (一般使用-1, -9999,等)
3. 进行特征构建
4. 判断构架之后特征的相关性
5. 把数据还原会原始状态(本blog的内容)

以上方法结合具体的情况使用。

### 回答1: 缺失数据是在统计分析中常常会遇到的一种情况,非常重要且需要特殊处理的问题。在数据分析过程中,缺失数据会导致样本数量减少,进而影响分析结果的准确性和可靠性。因此,对于缺失数据的统计处理是十分重要的。 针对缺失数据,可以采用以下几种常见的处理方法。 1. 删除缺失数据:如果缺失数据的比例很低且这些数据对整体分析影响较小,可以选择删除这部分缺失数据。但是,需要小心不要删除过多数据以至于影响整体分析结果的准确性。 2. 插补缺失数据:当缺失数据的比例较高或者删除缺失数据不可行时,可以采用插补方法来填补这些缺失值。常用的插补方法包括均值插补、中位数插补、回归插补等。选择适当的插补方法要根据数据的特点和研究的目的来确定。 3. 分析缺失数据缺失数据可能有其特定的原因,可以对缺失数据进行分析,了解其产生的原因,并在分析中进行相应的调整。例如,可以将缺失数据作为一个独立的变量引入模型中,或者进行分组分析等。 无论采用哪种方法处理缺失数据,在进行统计分析时都需要对处理过程进行透明和记录,以确保结果的可靠性和可复现性。此外,需要注意的是,不同处理方法可能会对结果产生不同的影响,因此在进行统计分析时需要进行敏感性分析和结果的鲁棒性验证。 综上所述,缺失数据的统计处理需要根据具体的情况采取合适的方法,同时要进行透明的处理和结果验证,以保证统计分析的准确性和可靠性。 ### 回答2: 缺失数据是指在数据分析中,部分数据因某些原因无法获得或记录,这样的数据称为缺失数据。在统计分析中,我们经常遇到缺失数据,因为它们可能对结果产生影响,因此需要进行统计处理。 首先,处理缺失数据的一种方法是删除缺失数据点。但是,这可能导致样本量减少,从而影响结果的可靠性和准确性。因此,我们需要根据数据缺失性质和缺失数据的比例来决定是否删除缺失数据。 第二种方法是使用插补方法,通过填充缺失值来估计真实值。常用的插补方法有均值插补、中值插补、回归插补等。均值插补方法使用变量的均值来填充缺失值,中值插补方法使用变量的中位数来填充缺失值,回归插补方法则是根据其他相关变量的值来预测缺失值。 第三种方法是建立模型来预测缺失数据。根据已有数据的模式和规律,可以建立回归模型或其他模型来预测缺失数据的值。这种方法需要依赖其他变量的信息,因此需要确保这些变量与缺失数据是相关的。 最后,我们还可以将缺失数据看作一个额外的分组,将其作为一个新的分类变量进行分析。这种方法可以避免删除数据或插补数据,但需要确保缺失数据的分布是符合统计假设的。 综上所述,缺失数据的统计处理可以通过删除、插补、预测或将其视为额外的分类变量来进行。选择合适的方法需要根据数据的性质、缺失数据的比例和分析的目的来决定。在任何情况下,我们都应该在处理缺失数据时谨慎地进行统计分析,并在结果中明确说明缺失数据处理的方法和影响。 ### 回答3: 缺失数据是在数据分析过程中常见的问题,需要进行合理的统计处理。金勇进的文章《缺失数据的统计处理》提供了一些方法和指导原则。 首先,文章介绍了缺失数据的分类。缺失数据可以分为完全随机缺失、随机缺失和非随机缺失。了解缺失数据的分类有助于选择合适的处理方法。 其次,文章提到了一些常用的缺失数据处理方法。其中包括完全记录删除法、均值代替法、最大值代替法、最小值代替法、回归代替法、概率代替法等。这些方法各有优缺点,需要根据实际情况选择合适的方法。 此外,文章还介绍了多重插补方法。多重插补方法是一种较为高级的缺失数据处理方法,它可以通过建立模型来预测缺失值。多重插补方法能够更准确地还原数据的真实情况,但需要较为复杂的计算过程。 最后,文章强调了在使用缺失数据处理方法时应注意的问题。例如,应确保缺失数据是随机的、应避免数据的偏倚、应选择合适的插补变量等。 总的来说,金勇进的文章《缺失数据的统计处理》提供了关于缺失数据处理的介绍和指导。在实际应用中,需要根据具体问题和数据情况选择合适的处理方法,确保数据的准确性和可靠性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值