离群点对均方根误差的影响以及解决办法

RMSE经常作为衡量回归问题的评估指标。计算公式为

R M S E = ∑ i = 1 n ( y i − y ^ i ) 2 n RMSE = \sqrt{\frac{\sum_{i=1}^{n}{(y_i - \hat{y}_i)^2}}{n}} RMSE=ni=1n(yiy^i)2

y i y_i yi是第 i i i个样本的真实值, y ^ i \hat{y}_i y^i是第 i i i个样本的预测值, n n n是样本个数。

一般情况下,RMSE可以很好的反应回归模型预测值相对真实值的偏离情况,但是当存在偏离程度非常大的离群点时,即使离群点数量非常少,也会让RMSE指标变得很差。

如果存在离群点的话,怎么解决呢?

  1. 如果认为是离群点是噪声的话,数据预处理阶段过滤掉
  2. 如果不认为是离群点是噪声的话,需要进一步提高模型的预测能力
  3. 可以找一个对噪声不敏感的指标,例如平均绝对百分比误差(MAPE),MAPE相较于RMSE,对每个点的误差进行了归一化,降低了离群点带来的绝对误差的影响

M A P E = ∑ i = 1 n ∣ y i − y ^ i y i ∣ ∗ 100 n MAPE = \sum_{i=1}^{n}|\frac{y_i - \hat{y}_i}{y_i}| * \frac{100}{n} MAPE=i=1nyiyiy^in100

欢迎关注微信公众号(算法工程师面试那些事儿),建号初期,期待和大家一起刷leecode,刷机器学习、深度学习面试题等,共勉~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值