Python数据统计分析之(数据清洗,标准化数据)

Pandas数据清洗

在这里插入图片描述
引入数据清洗的目的就是为了解决重复值,缺省值和异常值带来的影响,使得得数据的引用更加有效和准确。
在这里插入图片描述

数据清洗–重复值

重复值主要分为两种:

  • 记录重复:一个或多个特征列的几条记录完全一致
    对于记录重复数据,一般采用直接删除方式:
DataFrame.drop_duplicates(subset=None,Keep='first',inplace=Flase)
subset: 用来指定特定的列,默认所有列

例:
在这里插入图片描述

  • 特征重复:一个或多个特征名不同,但是数据完全一样
    pandas提供了一个corr函数可以进行相似度的检测,当相似度为1,表示两列数据一模一样。
DataFrame.corr(method='pearson',min_periods=1)

在这里插入图片描述
例:
在这里插入图片描述

数据清洗——缺省值

Pandas通过isnull和notnull检查DataFrame中的缺省值和非缺省值。
在这里插入图片描述

在这里插入图片描述

数据清洗——缺省值处理

我们一般对缺省值进行三种方式处理:

1、删除法
2、替换法
3、插值法:删除法导致数据量减少,替换法导致数据标准差变化。插值法通过合适的值替换缺省值。

删除法:

在这里插入图片描述

data.dropna()
替换法

在这里插入图片描述

data.fillna('Temp':25;'Wet':75;'Fog':100)

在这里插入图片描述

插值法

在这里插入图片描述

数据处理——异常值处理

数据处理中,异常值是指偏离明显的数值,有时候也成为离群点,异常值在进行数据分析的时候,分析结果容易产生偏差甚至错误,对于异常值,一般采用删除的方法。
异常值的检测:

  • 3δ原则
    在正要分布中δ代表标准差,μ代表均值。x=μ即为图像的对称轴。
    在这里插入图片描述

  • 箱线图分析
    在这里插入图片描述

Pandas标准化数据

数据标准化的目的就是对数据进行差异性的消除,使得数据取值大致相同。
数据标准化的方式很多,主要介绍两种:
1、离差标准化
2、标准差标准化

1、离差标准化

在这里插入图片描述

## 自定义离差标准化函数
def MinMaxScale(data):
	data = (data-data.min())/(data.max()-data.min())
	return data

2、标准差标准化

在这里插入图片描述

## 自定义标准差标准化函数
def StandardScaler(data):
	data = (data-data.mean())/data.std()
	return data

Pandas转换数据

  • 数据转换:
    某些数据不是数值型的数据,如性别等,在进行计算的时候,往往需要数值型的数据,此时,需要将这些数据进行数值型的转换。
    Pandas提供函数get_dummies获取并将非数值型的数据(哑数据)并转换成数值型数据。
    pandas.get_dummies(data,prefix,dummy_na,columns)
    
  • 3
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值