python数据预处理之数据标准化的几种处理方式

最新推荐文章于 2024-03-30 14:58:55 发布

南馆潇湘 *

最新推荐文章于 2024-03-30 14:58:55 发布

阅读量3.6k

点赞数 1

分类专栏： python 文章标签： python 编程语言

本文链接：https://blog.csdn.net/haoxun04/article/details/104203997

版权

文章探讨了Python中数据预处理的关键步骤——数据标准化，包括归一化Max-Min、Z-Score标准化、MaxAbs标准化以及针对离群点的RobustScaler方法。这些方法用于调整数据分布，确保在数据分析时的可比性和有效性。

摘要由CSDN通过智能技术生成

这篇文章主要介绍了python数据预处理之数据标准化的几种处理方式，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
何为标准化：
在数据分析之前，我们通常需要先将数据标准化（normalization），利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。

几种标准化方法：

归一化Max-Min
min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值，将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x’，其公式为：
新数据=（原数据-最小值）/（最大值-最小值）
这种方法能使数据归一化到一个区域内，同时不改变原来的数据结构。

实现中心化Z-Score
这种方法基于原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。将A的原始值x使用z-score标准化到x’。
z-score标准化方法适用于属性A的最大值和最小值未知的情况，或有超出取值范围的离群数据的情况。

推荐我们的Python学习扣qun：913066266 ，看看前辈们是如何学习的！从基础的python脚本到web开发

、爬虫、django、数据挖掘等【PDF，实战源码】，零基础到项目实战的资料都有整理。送给每一位

python的小伙伴！每天都有大牛定时讲解Python技术，分享一些学习的方法和需要注意的小细节，点击

加入我们的 python学习者聚集地

新数据=（原数据-均值）/标准差
这种方法适合大多数类型数据，也是很多工具的默认标准化方法。标准化之后的数据是以0为均值，方差为以的正太分布。但是Z-Score方法是一种中心化方法，会改变原有数据的分布结构，不适合用于对稀疏数据做处理。
很多时候数据集会存在稀疏特征，表现为标准差小，很多元素值为0，最常见的稀疏数据集是用来做协同过滤的数据集，绝大部分数据都是0。对稀疏数据做标准化