2.1:分层采样,
[
(
500
500
×
70
%
)
]
2
\left[ \binom{500}{500\times 70\%} \right]^2
[(500×70%500)]2
2.2:注意需要分层采样。
(1)10折交叉验证法
这时 D 1 , D 2 , ⋯ , D 10 D_1,D_2,\cdots,D_{10} D1,D2,⋯,D10均含有5个正例和5个负例,即训练集中的正负例个数相同,此时算法模型为随机猜测,错误率为50%。
(2)留一法
当“留一”为正例时,则训练集中负例占多数,训练出的算法模型预测“留一”(测试集)为负例,错误率为100%,当“留一”为负例时,同样推导出错误率为 100%。 平均下来,该算法的错误率为100%。
此题说明:同一数据集用不同的方法分拆出训练集和测试集时,同一算法可能会有不同的错误率。
2.3:在BEP处 P = R P=R P=R,又由调和平均得到BEP处 F 1 = P = R F_1=P=R F1=P=R
若
F
1
A
>
F
1
B
F_1^A>F_1^B
F1A>F1B则
{
P
A
>
P
B
R
A
>
R
B
\begin{equation*} \begin{cases} P^A>P^B\\ R^A>R^B \end{cases} \end{equation*}
{PA>PBRA>RB
即A的BEP点高于B的。
2.4:参见:2.3 恭喜:高考你被录取了!式(3)
2.5*:参见2.4 事情有点麻烦:你的分数与别人并列了!
2.6:参见2.5 代价的曲线美中图1、图2的讨论。
2.7:2.5 代价的曲线美中,我们讨论了任意一条ROC曲线都有一条对应的代价曲线。
反过来,由于代价曲线是由“包络”形成的,即它的任一点Q都存在一条切线,该切线与正方形交于
A
(
0
,
a
)
A(0,a)
A(0,a)与
B
(
1
,
b
)
B(1,b)
B(1,b)(【西瓜书图2.5】以及代价的曲线美中图1,
设
F
P
R
=
a
T
P
R
=
1
−
b
FPR=a \quad TPR=1-b
FPR=aTPR=1−b,则动点
R
(
F
P
R
,
T
P
R
)
R(FPR,TPR)
R(FPR,TPR)在坐标系中形成ROC曲线。
2.8:
(1)
m
i
n
−
m
a
x
min-max
min−max关注范围,将任意
[
x
m
i
n
,
x
m
a
x
]
[x_{min},x_{max}]
[xmin,xmax]中的变量变换到指定的范围
[
x
m
i
n
′
,
x
m
a
x
′
]
[x'_{min},x'_{max}]
[xmin′,xmax′]内,如,将120分制的分数转化为100分制的。 而
z
−
s
c
o
r
e
z-score
z−score关注的是分布密度,将任意分布密度变量变换为标准正态分布。
(2) m i n − m a x min-max min−max公式只与端点值相关,而 z − s c o r e z-score z−score公式与全部值相关(需要计算 x ˉ \bar{x} xˉ和 σ x \sigma _x σx),即增加或减少样本时需要重新计算。
(3) m i n − m a x min-max min−max能将新变量固定到一个范围,如,归一化到[0,1],而 z − s c o r e z-score z−score做不到,它能使得新变量服从标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1),通过其累计分布可获得原变量各值所处的百分位位置,高考标准分及排位就是利用这个原理。
2.9: χ 2 \chi _2 χ2检验过程同 t t t检验过程,只不过是查卡方分布表。
2.10:【西瓜书式(2.34)】用 χ 2 \chi _2 χ2检验,【西瓜书式(2.35)】用 F F F检验,前者较后者保守。 更多的知识可参考统计学的方差分析。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权