西瓜书第二章课后习题

2.1 数据集包含 1000 个样本,其中 500 个正例、 500 个反例,将其划分为包含 70% 样本的训练集和 30% 样本的测试集用于留出法评估,估算有多少种划分方式。
答:(C350、500)**2
2.2 数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
10折交叉验证按照比例取样例,则10折交叉验证互斥,每次挑选的9个训练集都是正返利各一半,则每次对测试集的预测正确率都是随机猜测1/2。
留一法,则每次的训练集分布都是不均的,且测试集在训练集中是属于分布较少的,则每次都会将测试集预测错误,此时测错误率为1。

2.3 若学习器A的F1值比学习器B高,试析A的BEP值是否也比B高。
F1是在阈值确定的情况下得出的,roc曲线的每一个点对应着一个F1,而EBP则是roc曲线在P=R时的取值,若考虑p=r时,A的bep值是比B高的
F1是p和r的调和平均数,2(p*r/(p+r))=p
p1>p2,则bep1>bep2.如果p!=r则无法判断。

2.4
tpr=tp/(tp+fn)
fpr=fp/(tn+fp)
p=tp/(tp+fp)
r=tp/(tp+fn)
tpr=r,fpr+r=1
2.6\错误率和roc关系
错误率是在阈值固定的情况下得出的,ROC曲线是在阈值随着样本预测值变化的情况下得出的。ROC曲线上的每一个点,都对应着一个错误率。

2.8、Min-max 规范化和z-score 规范化的优缺点。
1、计算方便、2、不用实时更新,3、但是对异常值比较敏感受影响较大
反过来

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值