机器学习（周志华）2.1-2.9习题解答_试证明任意一条roc曲线都有一条代价曲线与之对应-CSDN博客

本文链接：https://blog.csdn.net/l8947943/article/details/79837036

本文解析了机器学习中常见的评估方法，包括留出法、交叉验证法等，并探讨了F1值、BEP值的关系及ROC曲线的应用。还介绍了真正例率、假正例率与查准率、查全率的联系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2.1

题：数据集包含1000个样本，其中500个正例，500个反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式。

答：留出法将数据集划分为两个互斥的集合，为了保持数据的一致性，应该保证两个集合中的类别比例相同(定义要求)。故可以用分层采样的方法。训练集包含350个正例与350个反例，测试集包含150个正例与150个反例。

故应有种

2.2

题：数据集包含100个样本，其中正反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别（训练样本数相同时进行随机猜测），试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

答：采用10折交叉验证法：通过分层采样产生10个互斥子集，每个子集包括10个样本，正反例各半（尽可能保持数据分布的一致性）。每次取其中9个子集做训练，1个子集做测试。因此错误率为50%。

采用留一法时，如果留出来测试样本的1个是正例，则训练样本中正负样本的比例是49：50，这时模型会将测试样本识别为负例；如果流出来的测试样本是负例，则训练样本中正负样本比例是50：49，这时模型会将测试样本识别为正例。故留一法得到测试结果错误率是100%。

2.3

题：若学习器A的F1值比学习器B的高，试分析A的BEP值是否比B高

答：BEP（平衡点：break-even point）：是PR曲线上的平衡点的坐标值，它是“查准率=查全率”时的取值，F1为调和平均，若A的F1高于B，则((2*Pa*Ra)/(Pa+Ra))>((2*Pb*Rb)/(Pb+Rb))。Pa = Ra = BEPa , Pb = Rb = BEPb ，故BEPa>BEPb，即假设成立

2.4

题：试述真正例率（TPR）、假正例率（FPR）与查准率（P）、查全率（R）之间的联系。

答：真正例率TPR = TP / ( TP + FN )：真正例占真实正例中的比例

假正利率FPR = FP / ( TN + FP )：假正例占真实反例中的比例

查准率 P = TP / (TP + FP)：真正例占预测正例中的比例

查全率 R = TP / (TP + FN)：真正例占真实正例中的比例

2.5

题：试证明下式：

AUC=1-lrank, 其中Lrank 是排序损失

答：略（一脸懵逼）

2.6

题：试述错误率与ROC曲线之间的关系