机器学习笔记(二)机器学习模型验证

Model Metrics

损失衡量的是模型在监督学习中预测结果的好坏

一些用于分类的指标
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yAaDJLM7-1684137846509)(attachment:image.png)]

Accuracy: correct predictions

sum(y==y_hat)/y.size

Precision: 对某一个具体的类的预测

sum((y_hat==1)&(y==1))/sum(y_hat==1)

Recall: 对某一个具体的类的预测

sum((y_hat==1)&(y==1))/sum(y==1)

F1: the harmonic mean of precision and recall: 2pr/(p + r)

处理二分类问题
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8siWJ5ba-1684137846510)(attachment:image.png)]

ROC曲线:接收者操作特征(receiveroperating characteristic), roc曲线上每个点反映着对同一信号刺激的感受性。
横轴:假正类率 (false postive rate, FPR),特异度,划分实例中所有负例占所有负例的比例;TNR=1-FPR
纵轴:真正类率 ==Recall(true postive rate, TPR),灵敏度,Sensitivity(正类覆盖率)

AUC(Area under Curve):Roc曲线下的面积,介于0.1和1之间,值越大越好

Underfiting & Overfitting

  • Training error: model error on the training data
  • Generalization error: model error on new data
    在这里插入图片描述

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pGSzQ9se-1684137846511)(attachment:image-2.png)]

Model Complexity
The capacity of a set of function to fit data points

  • The number of learnable parameters
  • The value range for those parameters
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UCPwxlze-1684137846512)(attachment:image-4.png)]

Data Complexity

  • of examples
  • of features in each example
  • the separability of the classes
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cHgwqTAu-1684137846512)(attachment:image-5.png)]

Generalization error
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TP7jvulr-1684137846512)(attachment:image-6.png)]

Model Validation

test dataset 从未被模型看到过,只能使用一次
Validation dataset 通常是数据集的子集,不用于模型训练,可多次用于超参数调整

  • 不符合随机分布的数据集
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fEgRKt1I-1684137846513)(attachment:image.png)]

  • K-fold cross validation
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pBrBjXi8-1684137846513)(attachment:image-2.png)]

将原始数据集划分为相等的K部分,将一部分作为测试集,其余作为训练集,计算模型在测试集上的准确率,每次用不同的部分作为测试集,将平均准确率作为最终的模型准确率

from sklearn.model_selection import KFold
#划分为几块,是否随机打乱了,是否固定随机起点
KFold(n_splits=2,shuffle=False,random_state=None)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值