【Python机器学习】零基础掌握RobustScaler数据预处理

本文介绍了RobustScaler在处理包含离群值数据时的作用,通过中位数和四分位数进行缩放,降低极端值影响。文章详细讲解了sklearn的实现、参数详解及调参,并给出了长安城稻米价格和风力发电效率优化的案例应用,展示RobustScaler在实际问题中的应用价值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

假设当在网上浏览商品时,是否注意到过价格的波动?或者在看房子时,房价因为地段、面积不同而大相径庭?这些看似不同的数据背后,其实都面临着一个共同的挑战:如何在巨大的数值差异中找到一个“公平”的比较标准。就好比比较不同重量级的拳击手,不能直接看他们的拳力多少,而是要看他们在各自级别中的表现如何。

这就是RobustScaler发挥作用的时刻,一个专门为了处理包含离群值的数据而设计的工具。为什么叫“Robust”(健壮)呢?因为它不像传统的缩放方法那样易受极端值的影响。假设如果用平均值和标准差来缩放成绩,那么一两个特别差或者特别好的成绩就能对整个班级的标准产生巨大影响。但是如果用中位数和四分位数来缩放,那么即使有些学生特别优秀或者不尽如人意,对整个班级成绩的缩放影响也会小得多。

看一个具体的例子。假设有一组人的身高和体重数据,但这组数据中包含了一些篮球运动员的信息,显然他们的身高和体重都远高于一般人。如果直接计算平均值和标准差,这些篮球运动员就会成为数据中的“离群值”,影响对普通人身高和体重的评估。但如果使用RobustScaler,就可以更合理地评估普通人的身高和体重标准,因为它主要关注的是数据的中间区域,而不是极端值。

用一个模拟的数据表来直观感受一下。这里有10个人的身高和体重数据,将使用RobustScaler来处理这些数据。

序号 身高(cm) 体重(kg) 年龄 球场得分
1 180 75 24 10
2 175 65 22 8
3 190 90 28 15
4 165 55 21 7
5 185 80 25 12
6 170 70 23 9
7</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr数据杨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值