standard deviation 分类特征_R语言中回归和分类模型选择的性能指标

本文探讨了在R语言中选择回归和分类模型时的重要性能指标,包括均方误差(RMSE)、R2确定系数、皮尔逊相关系数以及分类模型的准确性、敏感性和特异性。强调了R2的局限性,并介绍了ROC曲线下的AUC作为评价分类器性能的指标。
摘要由CSDN通过智能技术生成

原文链接:

R语言中回归和分类模型选择的性能指标​tecdat.cn
e02beb6189a79a989f08b72ccbbbe7bb.png

有多种性能指标来描述机器学习模型的质量。但是,问题是,对于哪个问题正确的方法是什么?在这里,我讨论了选择回归模型和分类模型时最重要的性能指标。请注意,此处介绍的性能指标不应用于特征选择,因为它们没有考虑模型的复杂性。

回归的绩效衡量

对于基于相同函数集的模型,RMSE和R2 通常用于模型选择。

均方误差

均方误差由比较预测y ^ y ^与观察到的结果yy所得的残差平方和确定:

a66c8b7ef8c9e4bdf421c9c86e096e03.png

c02726c54ee7124ccb20f5dbdb247da1.png

由于MSE是基于残差平方的,因此它取决于结果平方 。因此,MSE的根 通常用于报告模型拟合:

d5838eb27fdf2ed1c446f264c328c835.png

c02726c54ee7124ccb20f5dbdb247da1.png

均方误差的一个缺点是它不是很容易解释,因为MSE取决于预测任务,因此无法在不同任务之间进行比较。例如,假设一个预测任务与估计卡车的重量有关,而另一项与估计苹果的重量有关。然后,在第一个任务中,好的模型可能具有100 kg的RMSE,而在第二个任务中,好的模型可能具有0.5 kg的RMSE。因此,虽然RMSE可用于模型选择,但很少报告,而使用R2R2。

皮尔逊相关系数

由于确定系数可以用皮尔逊相关系数来解释,因此我们将首先介绍该数量。令Y ^ Y ^表示模型估计,而YY表示观察到的结果。然后,相关系数定义为

e73063a41bdac7fe98f849f4b6761812.png

c02726c54ee7124ccb20f5dbdb247da1.png

其中Cov(⋅,⋅)∈RCov(⋅,⋅)∈R是协方差,而σσ是标准偏差。协方差定义为

72b72d65aecad64c632995b5507114e8.png

c02726c54ee7124ccb20f5dbdb247da1.png

其中,μμ表示平均值。在离散设置中,可以将其计算为

cefa3e986861f939a996a59859c20a7c.png

c02726c54ee7124ccb20f5dbdb247da1.png

这意味着,如果预测和结果与平均值的偏差相似,则它们的协方差将为正;如果与平均值具有相对的偏差,则它们之间的协方差将为负。

标准偏差定义为

f46a90c53053557dec68e58e4082a3ad.png

c02726c54ee7124ccb20f5dbdb247da1.png

在离散设置下,可以计算为

508a4c60c243072ac97b3a3510ac5552.png

c02726c54ee7124ccb20f5dbdb247da1.png

请注意,R函数 sd 计算总体标准差,该标准差用于获得无偏估计量。如

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值