【机器学习300问】43、回归模型预测效果明明很好，为什么均方根误差很大？

最新推荐文章于 2024-06-20 21:53:26 发布

小oo呆

最新推荐文章于 2024-06-20 21:53:26 发布

阅读量1.3k

点赞数 16

分类专栏：【机器学习】文章标签：机器学习回归人工智能

本文链接：https://blog.csdn.net/qq_39780701/article/details/136924707

版权

【机器学习】专栏收录该内容

139 篇文章 56 订阅

订阅专栏

一、案例描述

假设我们正在构建一个房地产价格预测模型，目标是预测某个城市各类住宅的售价。模型基于大量房屋的各种特征（如面积、地段、房龄、楼层等）进行训练。回归模型在大部分情况下对于住宅价格预测非常精准，用户反馈也非常好，模型的实际预测能力在业界得到了认可。但RMSE指标却依旧很高这是为什么？

二、原因分析

均方根误差（Root Mean Square Error, RMSE）是机器学习中广泛使用的衡量预测模型准确度的标准之一。它通过计算预测值与真实值之间差异的平方平均值的平方根来量化模型预测的平均偏差。通常情况下，较低的RMSE意味着模型有更好的预测性能。下面是他的计算公式：

$RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}$

符号	解释
$n$	真实值的总数
$y_i$	第 $i$ 个真实值
$\hat{y}_i$	第 $i$ 个预测值
$(y_i - \hat{y}_i)^2$	第 $i$ 个真实值与预测值之间的误差的平方，用来消除误差的正负号影响
$\sum_{i=1}^{n} (y_i - \hat{y}_i)^2$	所有残差平方的总和

案例原因：大多数房屋的价格都在一个合理的区间内变动，但如果有少数几个极其昂贵或极其便宜的离群点（例如，异常低价的房源或超级豪宅），模型很可能对这些点的预测误差极大。将这些误差平方后纳入总误差的计算中，会明显增大总的误差平方和，而开平方是在计算完平方和之后才进行的，所以这会显著提高均方根误差。

三、解决方案

（1）离群值检测与处理

可以采用诸如Z-score、IQR（四分位数范围）等方法检测离群值，并根据具体情况选择删除、替换（如使用邻近值填充、插值等方法）离群点或者保留（如果离群值是有意义的真实信息）。

（2）选择更合适的评估指标

对于存在大量离群点且其重要性不如其他大部分数据的情况，可考虑使用MAPE（平均绝对百分比误差）等对离群值不那么敏感的评价指标。

$MAPE = \frac{1}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100\%$

符号	解释
$n$	真实值的总数
$y_i$	第 $i$ 个真实值
$\hat{y}_i$	第 $i$ 个预测值
$\|y_i - \hat{y}_i\|$	第 $i$ 个真实值与预测值之间的误差的绝对值
$\left\| \frac{y_i - \hat{y}_i}{y_i} \right\|$	计算每个点的百分比误差
$\frac{1}{n} \sum$	计算所有百分比误差的平均值