2-习题
2.1
数据集1000个样本,其中500个正例、500个反例,将其划分为包含70%样本的训练集和30%的测试集用于留出法评估,评估算共有多少种划分方式。
答:
训练集样本数=700个,测试集样本数=300个
原数据集中正反例比为1:1,为保证分层采样,则对于训练集正例350个,反例350个
所以划分方法数= ( C 500 350 ∗ C 500 350 ) (C_{500}^{350} *C_{500}^{350}) (C500350∗C500350)
2.2
数据集包含100个样本,其中正、反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
答:
正例样本数=反例样本数=50个
- 10折交叉验证
即分为10个互斥子集,每个子集10个样本,保持正反例比例一致,各位5个正例和5个反例,每次选择9个子集,正反例都各是45个,这样随机猜,还是50%的错误率。
- 留一法
即100折交叉验证法,若是留的是正例为测试集,训练集中有50个反例和49个正例,学习器会将测试集留的猜测为反例,错误率100%;反之一样。
2.3
若学习器A的F1值比学习器B高,试分析A的BEP值是否也比B高。
(参考网上答案)
<这题很有助益理解相关概念。>
答:
错误,F1值和BEP值无明确联系。
2.3节性能度量中F1定义是基于性能查准率P和查全率R的调和平均定义,是在阈值固定时,将所有样本分类完成后,综合查全率和查准率得出的值;如下:
F
1
=
2
∗
P
∗
R
P
+
R
=
2
∗
T
P
样例总数
+
T
P
−
T
N
(
2.3
−
12
)
F1=\frac{2*P*R}{P+R}=\frac{2*TP}{\text{样例总数}+TP-TN}\qquad (2.3-12)\\
F1=P+R2∗P∗R=样例总数+TP−TN2∗TP(2.3−12)
BEP值:分类时的做法是预定一个阈值,若对样本的输出大于此阈值则归为正例,那么根据样本的输出值从大到小排序(“样本的排序”),排在最前面的即最有可能为正例的样本,而排在最后的是最不可能为正例的样本。从前往后,逐个将样本预测为正例(即把当前样本的输出值定于为阈值,小于阈值的都为反例),每次计算当前的查准率和查全率,即可得到查全率为横坐标查准率为纵坐标上的一个点,在将所有点按顺利连接后即可得到“P-R曲线”,而BEP(即Break-Event Point,平衡点)是在查全率=查准率时的取值。
BEP值是寻求一个阈值使得查全率和查准率相同的情况下得到的(此时BEP = R = P)。即BEP值和“样本的排序”紧密相关的,而和样本的预测值大小无关,即便各个样本的预测值都相同改变,但排序相对不变,类似分子分母相同改变的意思,其BEP值不变,而对于F1值,若是所有预测皆为反例,即2.3-12中第2个式子分子为0,则F1=0。
对于题目,若是学习器A和B的BEP值相同,而A的预测值都比B大,A的输出在(0,1)之间,而B的输出在(0,0.5)之间,即全为反例,此时B的 F1 值为0,A的 F1 值是在0-1之间。如此,题目不成立。
2.4
真正例率TPR、假正例率FPR、查准率P、查全率R之间关系。
以二分类混淆矩阵为例,
设总样本数
=
N
=
T
P
+
F
P
+
T
N
+
F
N
则
T
P
R
=
T
P
T
P
+
F
N
=
T
P
正例总数
F
P
R
=
F
P
T
N
+
F
P
=
F
P
反例总数
P
=
T
P
T
P
+
F
P
R
=
T
P
T
P
+
F
N
设总样本数=N=TP+FP+TN+FN\\ 则TPR=\frac{TP}{TP+FN}= \frac{TP}{正例总数}\qquad FPR=\frac{FP}{TN+FP}= \frac{FP}{反例总数}\\ P=\frac{TP}{TP+FP}\qquad R=\frac{TP}{TP+FN}
设总样本数=N=TP+FP+TN+FN则TPR=TP+FNTP=正例总数TPFPR=TN+FPFP=反例总数FPP=TP+FPTPR=TP+FNTP
真正例率TPR=查全率R。
2.5——有待解决
证明
A
U
C
=
1
−
l
r
a
n
k
AUC=1-l_{rank}\qquad
AUC=1−lrank
(有问题)
答:
l r a n k l_{rank} lrank相当于ROC曲线和y轴的面积,而AUC是ROC曲线和x轴的面积,二者面积和为1.
2.6
错误率与ROC曲线联系。
答:
错误率是在阈值固定的情况下得出的,ROC曲线是在阈值随着样本预测值变化的情况下得出的。
ROC曲线上的每一个点,都对应着一个错误率。
2.7
试证明任意一条ROC曲线都有一条代价曲线与之对应,反之亦然。
(参考代价曲线的绘制、网友答案)
答:
错误。
首先“任意一条ROC曲线都有一条代价曲线与之对应”,显然ROC曲线上每个点(FPR,TPR)都对应着图中一条线段,取所有线段的下界,即可得到唯一的代价曲线。
反之,代价曲线实际上是一个多边形(在有限样本下),易理解,每条边都对应代价平面上一条线段,实际上从左向右遍历每一条边,即可得到ROC曲线上从左到右每一个点。
ps. ROC曲线对应着唯一条代价曲线,但是一条代价曲线可对应着多条不同的ROC曲线,如代价曲线图中,有三条线段交于红点时,此时去掉距离横轴更远的线段,代价曲线是不会发生变化的,但是ROC曲线则会少一个点。
2.8
Min-max 规范化和z-score 规范化的优缺点。
(参考网上答案,部分分析有点困惑)
答:
-
Min-max 规范化
优点:1、计算相对简单一点。2、当新样本进来时,只有在新样本大于原最大值或者小于原最小值时,才需要重新计算规范化之后的值。
缺点:1、容易受高杠杆点和离群点影响。
-
z-score 规范化
优点:1、对异常值敏感低。
缺点在于1、计算更负责。2、每次新样本进来都需要重新计算规范化。
2.9——有待解决
简述 χ2 检验过程
答:
回头补。
2.10——有待解决
试述Friedman 检验中使用式(2.34)和(2.35)的区别。
答:
回头补。