原文链接:
R语言中回归和分类模型选择的性能指标tecdat.cn![e02beb6189a79a989f08b72ccbbbe7bb.png](https://i-blog.csdnimg.cn/blog_migrate/f47bc242c9355bc7553115236e74b788.jpeg)
有多种性能指标来描述机器学习模型的质量。但是,问题是,对于哪个问题正确的方法是什么?在这里,我讨论了选择回归模型和分类模型时最重要的性能指标。请注意,此处介绍的性能指标不应用于特征选择,因为它们没有考虑模型的复杂性。
回归的绩效衡量
对于基于相同函数集的模型,RMSE和R2 通常用于模型选择。
均方误差
均方误差由比较预测y ^ y ^与观察到的结果yy所得的残差平方和确定:
![a66c8b7ef8c9e4bdf421c9c86e096e03.png](https://i-blog.csdnimg.cn/blog_migrate/bf1a6ecf194040f2bc2925ca57e5f55b.png)
![c02726c54ee7124ccb20f5dbdb247da1.png](https://i-blog.csdnimg.cn/blog_migrate/7adb784de63a359259bb50f2f77581f2.png)
由于MSE是基于残差平方的,因此它取决于结果平方 。因此,MSE的根 通常用于报告模型拟合:
![d5838eb27fdf2ed1c446f264c328c835.png](https://i-blog.csdnimg.cn/blog_migrate/3bb241812fc8b8a0b71ca91fa2ba43be.png)
![c02726c54ee7124ccb20f5dbdb247da1.png](https://i-blog.csdnimg.cn/blog_migrate/7adb784de63a359259bb50f2f77581f2.png)
均方误差的一个缺点是它不是很容易解释,因为MSE取决于预测任务,因此无法在不同任务之间进行比较。例如,假设一个预测任务与估计卡车的重量有关,而另一项与估计苹果的重量有关。然后,在第一个任务中,好的模型可能具有100 kg的RMSE,而在第二个任务中,好的模型可能具有0.5 kg的RMSE。因此,虽然RMSE可用于模型选择,但很少报告,而使用R2R2。
皮尔逊相关系数
由于确定系数可以用皮尔逊相关系数来解释,因此我们将首先介绍该数量。令Y ^ Y ^表示模型估计,而YY表示观察到的结果。然后,相关系数定义为
![e73063a41bdac7fe98f849f4b6761812.png](https://i-blog.csdnimg.cn/blog_migrate/f06c4b781cd63ff678faeb134f38454f.png)
![c02726c54ee7124ccb20f5dbdb247da1.png](https://i-blog.csdnimg.cn/blog_migrate/7adb784de63a359259bb50f2f77581f2.png)
其中Cov(⋅,⋅)∈RCov(⋅,⋅)∈R是协方差,而σσ是标准偏差。协方差定义为
![72b72d65aecad64c632995b5507114e8.png](https://i-blog.csdnimg.cn/blog_migrate/2640efd3dbdeefccd14c7c1d5176047f.png)
![c02726c54ee7124ccb20f5dbdb247da1.png](https://i-blog.csdnimg.cn/blog_migrate/7adb784de63a359259bb50f2f77581f2.png)
其中,μμ表示平均值。在离散设置中,可以将其计算为
![cefa3e986861f939a996a59859c20a7c.png](https://i-blog.csdnimg.cn/blog_migrate/7b2b3487c112a453590c1e0b24795fb1.png)
![c02726c54ee7124ccb20f5dbdb247da1.png](https://i-blog.csdnimg.cn/blog_migrate/7adb784de63a359259bb50f2f77581f2.png)
这意味着,如果预测和结果与平均值的偏差相似,则它们的协方差将为正;如果与平均值具有相对的偏差,则它们之间的协方差将为负。
标准偏差定义为
![f46a90c53053557dec68e58e4082a3ad.png](https://i-blog.csdnimg.cn/blog_migrate/1eb0e64c3b3e27bbb7ec4178feb90ad5.png)
![c02726c54ee7124ccb20f5dbdb247da1.png](https://i-blog.csdnimg.cn/blog_migrate/7adb784de63a359259bb50f2f77581f2.png)
在离散设置下,可以计算为
![508a4c60c243072ac97b3a3510ac5552.png](https://i-blog.csdnimg.cn/blog_migrate/9bf917d9f84ec72ef252c6f5118b4736.png)
![c02726c54ee7124ccb20f5dbdb247da1.png](https://i-blog.csdnimg.cn/blog_migrate/7adb784de63a359259bb50f2f77581f2.png)
请注意,R函数 sd
计算总体标准差,该标准差用于获得无偏估计量。如