2.3 什么是平方根误差(RMSE)?平方根误差的有什么局限性

文章探讨了流媒体公司Hulu在预测美剧流量时,RMSE指标失效的问题,原因在于离群点的存在。文章提出了数据预处理、模型改进和选择更合适指标如MAPE的方法,强调了评估模型需考虑多维度指标的重要性。
摘要由CSDN通过智能技术生成

2.3 什么是平方根误差(RMSE)?平方根误差的有什么局限性?

背景

Hulu作为一家流媒体公司,拥有众多的美剧资源,预测每部美剧的流量趋势对于广告投放、用户增长都非常重要。我们希望构建一个回归模型来预测某部美剧的流量趋势,但无论采用哪种回归模型,得到的RMSE指标都非常高。然而事实是,模型在95%的时间区间内的预测误差都小于1%,取得了相当不错的预测结果。那么,造成RMSE指标居高不下的最可能的原因是什么?

定义

关于MSE是什么,我原来单独写过一篇文章,MAE、MSE和RMSE是什么?

RMSE经常被用来衡量回归模型的好坏,但按照题目的叙述,RMSE这个指标却失效了。先看一下RMSE的计算公式为
R M S E = ∑ i = 1 n ( y i − y i ∧ ) 2 n RMSE = \sqrt {\frac{{\sum\limits_{i = 1}^n {{{({y_i} - \mathop {{y_i}}\limits^ \wedge )}^2}} }}{n}} RMSE=ni=1n(yiyi)2
其中,yᵢ是第i个样本点的真实值,yⱼ^是第i个样本点的预测值,n是样本点的个数。
一般情况下,RMSE能够很好地反映回归模型预测值与真实值的偏离程度。

问题

​ 但在实际问题中,如果存在个别偏离程度非常大的离群点(Outlier)时,即使离群点数量非常少,也会让RMSE指标变得很差。
​ 回到问题中来,模型在95%的时间区间内的预测误差都小于1%,这说明,在大部分时间区间内,模型的预测效果都是非常优秀的。然而,RMSE 却一直很差,这很可能是由于在其他的5%时间区间内存在非常严重的离群点。事实上,在流量预估这个问题中,噪声点确实是很容易产生的,比如流量特别小的美剧、刚上映的美剧或者刚获奖的美剧,甚至一些相关社交媒体突发事件带来的流量,都可能会造成离群点。

解决方案:

可以从三个角度来思考。

  • 第一,如果我们认定这些离群点是“噪声点”的话,就需要在数据预处理的阶段把这些噪声点过滤掉

  • 第二,如果不认为这些离群点是“噪声点”的话,就需要进一步提高模型的预测能力,将离群点产生的机制建模进去(这是一个宏大的话题,这里就不展开讨论了)。

  • 第三,可以找一个更合适的指标来评估该模型

    关于评估指标,其实是存在比RMSE 的鲁棒性更好的指标,比如平均绝对百分比误差(Mean Absolute PercentError,MAPE),它定义为
    M A P E = ∑ i = 1 n ∣ y i − y i ∧ y i ∣ × 100 n MAPE = \sum\limits_{i = 1}^n {\left| {\left. {\frac{{{y_i} - \mathop {{y_i}}\limits^ \wedge }}{{{y_i}}}} \right|} \right.} \times \frac{{100}}{n} MAPE=i=1n yiyiyi ×n100
    相比RMSE,MAPE相当于把每个点的误差进行了归一化,降低了个别离群点带来的绝对误差的影响。

2.1-2.3总结与扩展

2.1 什么是准确率(Accuracy)?有哪些局限性?

2.2 什么是精确率(Precision)与召回率(Recall)?二者如何权衡?

2.3 本文:什么是平方根误差(RMSE)?平方根误差的有什么局限性?

2.1-2.3基于三个假想的Hulu应用场景和对应的问题,说明了选择合适的评估指标的重要性。

  • 每个评估指标都有其价值,但如果只从单一的评估指标出发去评估模型,往往会得出片面甚至错误的结论
  • 只有通过一组互补的指标去评估模型,才能更好地发现并解决模型存在的问题,从而更好地解决实际业务场景中遇到的问题。

参考文献:

《百面机器学习》 诸葛越主编

出版社:人民邮电出版社(北京)

ISBN:978-7-115-48736-0

2022年8月第1版(2022年1月北京第19次印刷)

  • 19
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值