【Python机器学习】零基础掌握RobustScaler数据预处理

最新推荐文章于 2024-08-23 09:38:30 发布

Mr数据杨

最新推荐文章于 2024-08-23 09:38:30 发布

阅读量294

点赞数

分类专栏： Python 机器学习文章标签： python 机器学习人工智能

本文链接：https://blog.csdn.net/qq_20288327/article/details/134226854

版权

Python 机器学习专栏收录该内容

273 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了RobustScaler在处理包含离群值数据时的作用，通过中位数和四分位数进行缩放，降低极端值影响。文章详细讲解了sklearn的实现、参数详解及调参，并给出了长安城稻米价格和风力发电效率优化的案例应用，展示RobustScaler在实际问题中的应用价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

假设当在网上浏览商品时，是否注意到过价格的波动？或者在看房子时，房价因为地段、面积不同而大相径庭？这些看似不同的数据背后，其实都面临着一个共同的挑战：如何在巨大的数值差异中找到一个“公平”的比较标准。就好比比较不同重量级的拳击手，不能直接看他们的拳力多少，而是要看他们在各自级别中的表现如何。

这就是RobustScaler发挥作用的时刻，一个专门为了处理包含离群值的数据而设计的工具。为什么叫“Robust”（健壮）呢？因为它不像传统的缩放方法那样易受极端值的影响。假设如果用平均值和标准差来缩放成绩，那么一两个特别差或者特别好的成绩就能对整个班级的标准产生巨大影响。但是如果用中位数和四分位数来缩放，那么即使有些学生特别优秀或者不尽如人意，对整个班级成绩的缩放影响也会小得多。

看一个具体的例子。假设有一组人的身高和体重数据，但这组数据中包含了一些篮球运动员的信息，显然他们的身高和体重都远高于一般人。如果直接计算平均值和标准差，这些篮球运动员就会成为数据中的“离群值”，影响对普通人身高和体重的评估。但如果使用RobustScaler，就可以更合理地评估普通人的身高和体重标准，因为它主要关注的是数据的中间区域，而不是极端值。

用一个模拟的数据表来直观感受一下。这里有10个人的身高和体重数据，将使用RobustScaler来处理这些数据。