西瓜书第二章课后习题

最新推荐文章于 2023-07-21 17:33:12 发布

qq_41895704

最新推荐文章于 2023-07-21 17:33:12 发布

阅读量1.4k

点赞数 1

分类专栏：数据分析

本文链接：https://blog.csdn.net/qq_41895704/article/details/115008112

版权

数据分析专栏收录该内容

13 篇文章

订阅专栏

2.1 数据集包含 1000 个样本，其中 500 个正例、 500 个反例，将其划分为包含 70% 样本的训练集和 30% 样本的测试集用于留出法评估，估算有多少种划分方式。
答：（C350、500）**2
2.2 数据集包含100个样本，其中正反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别（训练样本数相同时进行随机猜测），试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
10折交叉验证按照比例取样例，则10折交叉验证互斥，每次挑选的9个训练集都是正返利各一半，则每次对测试集的预测正确率都是随机猜测1/2。
留一法，则每次的训练集分布都是不均的，且测试集在训练集中是属于分布较少的，则每次都会将测试集预测错误，此时测错误率为1。

2.3 若学习器A的F1值比学习器B高，试析A的BEP值是否也比B高。
F1是在阈值确定的情况下得出的，roc曲线的每一个点对应着一个F1，而EBP则是roc曲线在P=R时的取值，若考虑p=r时，A的bep值是比B高的
F1是p和r的调和平均数，2（p*r/(p+r)）=p
p1>p2,则bep1>bep2.如果p！=r则无法判断。

2.4
tpr=tp/(tp+fn)
fpr=fp/(tn+fp)
p=tp/(tp+fp)
r=tp/(tp+fn)
tpr=r,fpr+r=1
2.6\错误率和roc关系
错误率是在阈值固定的情况下得出的，ROC曲线是在阈值随着样本预测值变化的情况下得出的。ROC曲线上的每一个点，都对应着一个错误率。

2.8、Min-max 规范化和z-score 规范化的优缺点。
1、计算方便、2、不用实时更新，3、但是对异常值比较敏感受影响较大
反过来