Python数据统计分析之（数据清洗，标准化数据）

最新推荐文章于 2025-04-07 11:57:51 发布

中文过六级再取名

最新推荐文章于 2025-04-07 11:57:51 发布

阅读量3.1k

点赞数 3

分类专栏： Python数据分析文章标签：数据分析 python

本文链接：https://blog.csdn.net/w666667/article/details/106229543

版权

7 篇文章

订阅专栏

本文详细介绍了使用Pandas进行数据清洗的过程，包括处理重复值、缺省值和异常值的方法，以及数据标准化和转换的技术。通过实例展示了如何利用Pandas的内置函数提升数据质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Pandas数据清洗

在这里插入图片描述
引入数据清洗的目的就是为了解决重复值，缺省值和异常值带来的影响，使得得数据的引用更加有效和准确。

重复值主要分为两种：

DataFrame.drop_duplicates(subset=None,Keep='first',inplace=Flase)

subset: 用来指定特定的列，默认所有列

例：
在这里插入图片描述

DataFrame.corr(method='pearson',min_periods=1)

在这里插入图片描述
例:

Pandas通过isnull和notnull检查DataFrame中的缺省值和非缺省值。
在这里插入图片描述

在这里插入图片描述

我们一般对缺省值进行三种方式处理：

1、删除法
2、替换法
3、插值法：删除法导致数据量减少，替换法导致数据标准差变化。插值法通过合适的值替换缺省值。

在这里插入图片描述

data.dropna()

在这里插入图片描述

data.fillna('Temp':25;'Wet':75;'Fog':100)

在这里插入图片描述

在这里插入图片描述

数据处理中，异常值是指偏离明显的数值，有时候也成为离群点，异常值在进行数据分析的时候，分析结果容易产生偏差甚至错误，对于异常值，一般采用删除的方法。
异常值的检测：

数据标准化的目的就是对数据进行差异性的消除，使得数据取值大致相同。
数据标准化的方式很多，主要介绍两种：
1、离差标准化
2、标准差标准化

在这里插入图片描述

## 自定义离差标准化函数
def MinMaxScale(data):
	data = (data-data.min())/(data.max()-data.min())
	return data

在这里插入图片描述

## 自定义标准差标准化函数
def StandardScaler(data):
	data = (data-data.mean())/data.std()
	return data