机器学习算法结合生信分析很多,作为非算法专业人士,根据模型得到的结论,敢用吗?
又有哪些模型评估方法可以是我们用的稍微放心一点呢?
本文主要从以下两个模型类别来介绍:
- 评价分类结果:精准度、混淆矩阵、精准率、召回率、F1 Score、ROC曲线等
- 评价回归结果:MSE、RMSE、MAE、R Squared
一 分类算法评价
1.1 预测准确性
分类模型预测是否患有癌症的准确度99.9%,哇 好高,那这个模型是不是就是很好呢?
假如癌症产生的概率是0.1%,那即使“傻瓜式”的预测所有人都是健康的,就可达到99.9%的准确率。
也就是说对于极度偏斜的数据,只使用分类准确度不行。此时就需要使用混淆矩阵(Confusion Matrix)做进一步分析。
1.2 混淆矩阵
对于二分类问题来说,所有的问题被分为0和1两类,混淆矩阵是2*2的矩阵:
预测值0 | 预测值1 | |
---|---|---|
真实值0 | TN | FP |
真实值1 | FN | TP |
- TN:真实值是0,预测值也是0,