Model Metrics
损失衡量的是模型在监督学习中预测结果的好坏
一些用于分类的指标
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yAaDJLM7-1684137846509)(attachment:image.png)]](https://i-blog.csdnimg.cn/blog_migrate/1e1628917acea7bcfc9e543706ca1f44.png)
Accuracy: correct predictions
sum(y==y_hat)/y.size
Precision: 对某一个具体的类的预测
sum((y_hat==1)&(y==1))/sum(y_hat==1)
Recall: 对某一个具体的类的预测
sum((y_hat==1)&(y==1))/sum(y==1)
F1: the harmonic mean of precision and recall: 2pr/(p + r)
处理二分类问题
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8siWJ5ba-1684137846510)(attachment:image.png)]](https://i-blog.csdnimg.cn/blog_migrate/a7f1f1bbda06ee18a56eb735e051c808.png)
ROC曲线:接收者操作特征(receiveroperating characteristic), roc曲线上每个点反映着对同一信号刺激的感受性。
横轴:假正类率 (false postive rate, FPR),特异度,划分实例中所有负例占所有负例的比例;TNR=1-FPR
纵轴:真正类率 ==Recall(true postive rate, TPR),灵敏度,Sensitivity(正类覆盖率)
AUC(Area under Curve):Roc曲线下的面积,介于0.1和1之间,值越大越好
Underfiting & Overfitting
- Training error: model error on the training data
- Generalization error: model error on new data

![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pGSzQ9se-1684137846511)(attachment:image-2.png)]](https://i-blog.csdnimg.cn/blog_migrate/55d22ce08b630a97b591cdcb277f0ad3.png)
Model Complexity
The capacity of a set of function to fit data points
- The number of learnable parameters
- The value range for those parameters
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UCPwxlze-1684137846512)(attachment:image-4.png)]](https://i-blog.csdnimg.cn/blog_migrate/ebe47c630057695432e7564b0603dc4d.png)
Data Complexity
- of examples
- of features in each example
- the separability of the classes
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cHgwqTAu-1684137846512)(attachment:image-5.png)]](https://i-blog.csdnimg.cn/blog_migrate/da2d4c438d820c0a11df219b4ce488f8.png)
Generalization error
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TP7jvulr-1684137846512)(attachment:image-6.png)]](https://i-blog.csdnimg.cn/blog_migrate/bfab0e8140043762fb9525b9898a072d.png)
Model Validation
test dataset 从未被模型看到过,只能使用一次
Validation dataset 通常是数据集的子集,不用于模型训练,可多次用于超参数调整
-
不符合随机分布的数据集
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fEgRKt1I-1684137846513)(attachment:image.png)]](https://i-blog.csdnimg.cn/blog_migrate/3ae0971e073af19e9d7d9993e5708e49.png)
-
K-fold cross validation
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pBrBjXi8-1684137846513)(attachment:image-2.png)]](https://i-blog.csdnimg.cn/blog_migrate/4b65a479de55d0f57f6c74508c4c0fe0.png)
将原始数据集划分为相等的K部分,将一部分作为测试集,其余作为训练集,计算模型在测试集上的准确率,每次用不同的部分作为测试集,将平均准确率作为最终的模型准确率
from sklearn.model_selection import KFold
#划分为几块,是否随机打乱了,是否固定随机起点
KFold(n_splits=2,shuffle=False,random_state=None)

最低0.47元/天 解锁文章
900

被折叠的 条评论
为什么被折叠?



