chapter-2-answer

最新推荐文章于 2024-01-09 01:22:51 发布

糖糖糖-豆

最新推荐文章于 2024-01-09 01:22:51 发布

阅读量1.7k

点赞数 1

分类专栏：西瓜书

西瓜书专栏收录该内容

9 篇文章 0 订阅

订阅专栏

2.1
题：数据集包含1000个样本，其中500个正例，500个反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式。
答：留出法将数据集划分为两个互斥的集合，为了保持数据的一致性，应该保证两个集合中的类别比例相同。故可以用分层采样的方法。训练集包含350个正例与350个反例，测试集包含150个正例与150个反例。
故有500C350*500C350 种划分方式

2.2
题：数据集包含100个样本，其中正反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别（训练样本数相同时进行随机猜测），试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
答：（1）10折交叉验证法：通过分层采样产生10个互斥子集，每个子集包括10个样本，正反例各半。每次取其中9个子集做训练，1个子集做测试。因此在训练样本中两个类别数目相同，随机进行猜测，因此错误率为50%。
（2）留一法：每次取一个样本做测试集，若取出的样本为正例，那么剩下的训练集中有50个反例，49个正例，因此预测结果为反例，反之亦然。故错误率为100%。

2.3
题：若学习器A的F1值比学习器B高，试析A的BEP值是否也比B高。
答：BEP是查准率P与查全率R相等时的取值，F1则为P与R的调和平均。
若A的F1值要高于B，则在以下不等式中：

令Pa=Ra=BEPa,Pb=Rb=BEPb,得到
BEPa>BEPb
故假设成立

2.4
题：试述真正例率（TPR）、假正例率（FPR）与查准率（P）、查全率（R）之间的联系。
答：
真正例率是所有真实正例中真正例的比例；
假正例率是所有真实反例中假正例的比例；
查准率是所有预测正例中真正例的比例；
查全率是所有真实正例中真正例的比例；
所以查全率与真正例率相等， R=TPR

2.5
题：试证明下式：
AUC=1-lrank, 其中Lrank 是排序损失
答：

书34页b图，AUC的公式不应该写的这么复杂，才发现原来这个图并没有正例反例预测值相等的情况。当出现这种情况时，ROC曲线会呈斜线上升，而不是这种只有水平和垂直两种情况。

由于一开始做题时并没有想过ROC曲线不可以是斜线，所以画了这张图，如果不存在正例反例预测值相等的情况，那么斜线也没必要存在。
但是在维基百科上看到一副图，貌似也存在斜线的ROC，但是不知道含义是否和我这里写的一样。
https://en.wikipedia.org/wiki/Receiver_operating_characteristic
引用一幅有斜线的ROC曲线
这里写图片描述

与BEP一样，学习器先将所有测试样本按预测概率排序，越可能是正的排在越前面。然后依次遍历，每扫描到一个位置，里面如果只有正例，则ROC曲线垂直向上，如果只有反例，曲线水平往右，如果既有正例也有反例，则斜向上。如图所示
ROC曲线
由于TPR与FPR的分母是常数，所以这里按比例扩大了坐标(分别是真实正例和真实反例的数目倍)，可以更好看出曲线走势。
这里写图片描述
可以看出一共有20个测试样本，10个正，10个反。学习器排序的结果是
+,−,(+,+),(+,−),(+,−),(+,+),(−,−),(+,+),(−,−,−),+,−。其中括号内的样本排在相同的位置。
<(+,+,−,−)与(+,−),(+,−)是同样的效果>

公式2.21累加了所有不在正例的反例数目，其中同样的位置标记为0.5，在正例前面标记为1。从图中可以看出，折线每次向右(右上)延伸，表示扫描到了反例，折线上方对应的面积，就是该反例后面有多少个正例，每个正例是一个正方形，对应的面积是1。同位置上的正例是个三角形，对应的面积是0.5。计算出总面积后，由于ROC图的坐标是归一化的，所以总面积要除以一开始放大的倍数，也就是m+m−。

2.6
题：试述错误率与ROC曲线之间的关系
答：错误率可以用下式表示：

参考真假正例率的定义，由于样本中正例和反例的比例是确定的。因此以某个样本的score为阈值时（即对应ROC曲线中的一个点），该点的真正例率越高，假正例率越低，则错误率越低，因此越靠近（0，1）点错误率越低。

ROC曲线每个点对应了一个TPR与FPR，此时对应了一个错误率。
Ecost=(m+∗(1−TPR)∗cost01+m−∗FPR∗cost10)/(m++m−)
学习器会选择错误率最小的位置作为截断点

2.7
题：试证明任意一条ROC曲线都有一条代价曲线与之对应，反之亦然。
答：
代价曲线可以由（0，FPR）到（1，FNR）的曲线族包络得到。
由于ROC曲线是连续的，故必然有确定的一条代价曲线与之对应。
反之，对代价曲线上的任何一点作切线，可以得到对应的FPR与FNR，即可以得到ROC曲线上一个点的坐标。因此代价曲线也有一条对应的ROC曲线存在

由定义可知TPR与FPR都是由0上升到1，FNR则由1下降到0。
每条ROC曲线都会对应一条代价曲线，由于第一条代价线段的是(0,0),(1,1)，最后是(0,1)(1,0),
所有代价线段总会有一块公共区域，这个区域就是期望总体代价，而这块区域的边界就是代价曲线，且肯定从(0,0)到(1,0)。
在有限个样本情况下，ROC是一条折线，此时根据代价曲线无法还原ROC曲线。但若是理论上有无限个样本，ROC是一条连续的折线，代价曲线也是连续的折线，每个点的切线可以求出TPR与FNR，从而得到唯一的ROC曲线。

2.8
题：Min-Max规范化与z-score规范化如下所示。试析二者的优缺点。
答：
Min-Max 规范化适用于最大最小值已知的情形。缺点在于当有新数据输入时，可能导致max和min的变化，需要重新定义。
z-score规范化适用于最大值或最小值未知的情况，或有超出取值范围的离群数据的情况。
Min−max规范化方法简单，而且保证规范化后所有元素都是正的，每当有新的元素进来，只有在该元素大于最大值或者小于最小值时才要重新计算全部元素。但是若存在一个极大(小)的元素，会导致其他元素变的非常小(大)。
z−score标准化对个别极端元素不敏感，且把所有元素分布在0的周围，一般情况下元素越多，0周围区间会分布大部分的元素，每当有新的元素进来，都要重新计算方差与均值。

2.9
题：试述卡方检验过程。
答：
根据概率论与数理统计中的内容（交大版本，P239）。卡方检验适用于方差的检验。步骤如下：
1）分均值已知与均值未知两种情况，求得卡方检验统计量
2）根据备选假设以及α，求得所选假设对应的拒绝域
3）根据1）中求得的卡方统计量与2）中求得的拒绝域，判断假设成立与否

2.10* 试叙在Friedman检验中使用（2.34）与（2.35）的区别
这里写图片描述