文章目录
- 机器学习课后习题解答
- 第一章 绪论
- 第二章 模型评估与选择
- 1.数据集包含1000个样本,其中500个正例、500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
- 2.数据集包含100个样本,其中正、反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测)。试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果
- 3.若学习器A的F1值比学习器B高,试析A的BEP值是否也比B高。
- 4.试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系
- 5. 试证明式(2.22) A U C = 1 − L r a n k AUC =1 - \mathscr{L}_{rank} AUC=1−Lrank
- 6. 试述错误率与ROC曲线的联系
- 7. 试证明任意一条ROC曲线都有一条代价曲线与之对应,反之亦然
- 8. Min-max规范化和z-score规范化是两种常用的规范化方法。令x和x'分别表示变量在规范化前后的取值,相应的,令 x m i n x_{min} xmin和 x m a x x_{max} xmax表示规范化前的最小值和最大值 x m i n ′ x_{min}^{'} xmin′和 x m a x ′ x_{max}^{'} xmax′表示规范化后的最小值和最大值, x ‾ \overline{x} x和 σ x \sigma_x σx分别表示规范化前的均值和标准差,则min-max规范化、z-score规范化分别如两个式子所示,试析二者的优缺点。
- 9. 试述 X 2 \mathcal{X}^2 X2检验过程
- 10. 试述在Friedman检验中使用式(2.34)与(2.35)的区别
- 第三章 线性模型
机器学习课后习题解答
第一章 绪论
1. 表1.1中若只包含编号为1和4的两个样例,是给出相应的版本空间。
答: 表1.1如下表所示:
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
1 | 青绿 | 蜷缩 | 浊响 | 是 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
则有色泽 = {“青绿”,“乌黑”};根蒂={“蜷缩”,“稍蜷”};敲声={“浊响”,“沉闷”};则其假设空间如下图1所示
得到其版本空间为图3所示:
2. 与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力,例如
好瓜 ↔ ((色泽 = ∗ ) ∩ ( 根蒂 = 蜷缩 ) ∩ ( 敲声 = ∗ ) ) ∪ ((色泽 = 乌黑) ∩ ( 根蒂 = ∗ ) ∩ ( 敲声 = 沉闷 ) ) 好瓜\leftrightarrow ((色泽 = * )\cap (根蒂 = 蜷缩) \cap (敲声 = * ))\cup ((色泽 = 乌黑)\cap (根蒂 = * ) \cap (敲声 = 沉闷 )) 好瓜↔((色泽=∗)∩(根蒂=蜷缩)∩(敲声=∗))∪((色泽=乌黑)∩(根蒂=∗)∩(敲声=沉闷))
会把" ( 色泽 = 青绿 ) ∩ ( 根蒂 = 蜷缩 ) ∩ ( 敲声 = 清脆 ) (色泽 = 青绿) \cap (根蒂 = 蜷缩) \cap (敲声 = 清脆) (色泽=青绿)∩(根蒂=蜷缩)∩(敲声=清脆)“以及” ( 色泽 = 乌黑 ) ∩ ( 根蒂 = 硬挺 ) ∩ (敲声 = 沉闷) (色泽 = 乌黑 ) \cap (根蒂 = 硬挺) \cap (敲声 = 沉闷) (色泽=乌黑)∩(根蒂=硬挺)∩(敲声=沉闷)"都分类为“好瓜”。若使用最多包含 k k k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,是估算共有多少种可能的假设。
答:题干中的数据集如下表1.2西瓜数据集所示。
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 硬挺 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
可知三个特征色泽、根蒂、敲声的特征值数量分别是2、3、3,则其可以构成规模为344+1 = 49个假设的假设空间。若从中使用包含k个合取式的合取范式.
则在不考虑存在冗余的情况下,则可能假设的数量计算如下:
∑
i
=
0
49
C
49
k
=
2
49
\sum_{i=0}^{49}C_{49}^k = 2^{49}
i=0∑49C49k=249
考虑存在冗余的情况时,忽略空集,则假设空间的规模为48。
- 不存在泛化属性时,2 * 3 * 3 = 18
- 一个属性泛化时,2 * 3 + 3 * 3 + 2 * 3 = 21
- 两个属性泛化时,2 + 3 + 3 = 8
- 三个属性泛化时,1
所以在 k = 1 时,上述的情况都没有存在冗余的假设,即48种;k = 18时,即为18种具体假设的析取式,即1种。当 1<k<18时,需要编程实现。
3. 若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择。
答 :
存在噪音,相同特征向量的样本的标签值不同
- 对相同特征向量的样本进行对标签统计,对应标签数量少的进行删除
- 多数取代少数,可以设置一个阈值,当噪声比小于阈值时,用多数者的特征建立假设
- 直接删除相同特征向量的样本的标签值不同的样本
4. 本章在1.4节在论述“没有免费的午餐”定理时,默认使用了“分类错误率”作为性能度量来对分类器进行评估。若换用其他性能度量 ℓ \ell ℓ,则式(1.1)将改为下式,试证明NLF仍然成立。
E o t e = ( Q a ∣ X , f ) = ∑ h ∑ x ∈ X − X P ( x ) ℓ ( h ( x ) , f ( x ) ) P ( h ∣ X , Q a ) E_{ote} =(\mathscr{Q}_a|X,f ) = \sum_h \sum_{x\in \mathcal{X}-X} P(x) \ell(h(x),f(x))P(h|X,\mathscr{Q}_a) Eote=(Qa∣X,f)=h∑x∈X−X∑P(x)ℓ(h(x),f(x))P(h∣X,Qa)
答: 证明:
设
f
f
f均匀分布,此时则对于训练数据为
x
x
x的二分类问题。
f
f
f有
2
x
2^x
2x种情况,其中一半与假设一致,即
p
(
f
(
x
)
=
h
(
x
)
)
=
0.5
p(f(x) = h(x) ) =0.5
p(f(x)=h(x))=0.5
所以
∑
f
ℓ
(
h
(
x
)
,
f
(
x
)
)
=
0.5
∗
2
x
∗
(
ℓ
(
h
(
x
)
=
f
(
x
)
)
+
ℓ
(
h
(
x
)
≠
f
(
x
)
)
)
\sum_f \ell(h(x),f(x)) =0.5 * 2^x *(\ell(h(x) = f(x)) + \ell(h(x) \neq f(x)))
f∑ℓ(h(x),f(x))=0.5∗2x∗(ℓ(h(x)=f(x))+ℓ(h(x)=f(x)))
其中
(
ℓ
(
h
(
x
)
=
f
(
x
)
)
+
ℓ
(
h
(
x
)
≠
f
(
x
)
)
)
(\ell(h(x) = f(x)) + \ell(h(x) \neq f(x)))
(ℓ(h(x)=f(x))+ℓ(h(x)=f(x)))为常数
5. 试述机器学习能在互联网搜索的那些环节起什么作用
答:
- 提交信息到搜索引擎环节:提交文本信息时,对文本进行信息的抽取,语义的分析。提交图片内容时(以图搜图为例),对图像进行特征抽取,类别分析。
- 搜索引擎匹配信息环节:利用机器学习聚类、分类匹配目标信息
- 结果展示给用户环节:为用户展示个性化的搜素结果·
第二章 模型评估与选择
1.数据集包含1000个样本,其中500个正例、500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
答:使用留出法时,假设采用分层抽样的策略。则有:
C
500
150
∗
C
500
150
种
C_{500}^{150} * C_{500}^{150}种
C500150∗C500150种
2.数据集包含100个样本,其中正、反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测)。试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果
答:
- 采用10折交叉验证法时,假设进行采样时采用分层抽样的策略,则有下2.1图(其中红、蓝色表示正、反样本 = 5:5):
R a t e e r r o r = 50 % Rate_{error} = 50\% Rateerror=50%
- 采用留一法时,当留出的样本为正例时,此时的训练集的样本比例为: 正:反 = 49 : 50,测试集将被预测为反例。反之,训练集的样本比例为:正: 反 = 50:49 ,留出的样本为负例将被预测为正例。则最终模型的 R a t e e r r o r = 100 % Rate_{error} = 100\% Rateerror=100%
3.若学习器A的F1值比学习器B高,试析A的BEP值是否也比B高。
答:
F
1
F_1
F1的计算公式为:
F
1
=
2
∗
P
∗
R
P
+
R
F_1 = \frac{2*P*R}{P+R}
F1=P+R2∗P∗R
BEP值为当P = R时的值,则此时有
F
1
A
=
2
∗
B
E
P
A
2
2
∗
B
E
P
A
F_{1A} = \frac{2 * BEP_A^2}{2*BEP_A}
F1A=2∗BEPA2∗BEPA2
F
1
B
=
2
∗
B
E
P
B
2
2
∗
B
E
P
B
F_{1B} = \frac{2 * BEP_B^2}{2*BEP_B}
F1B=2∗BEPB2∗BEPB2
因为
F
1
A
>
F
1
B
F_{1A} > F_{1B}
F1A>F1B,所以易得
B
E
P
A
>
B
E
P
B
BEP_A > BEP_B
BEPA>BEPB
4.试述真正例率(TPR)、假正例率(FPR)与查准率§、查全率®之间的联系
答 : TPR、FPR、P、R的计算公式如下所示:
T
P
R
=
R
=
T
P
T
P
+
F
N
F
P
R
=
F
P
T
N
+
F
P
P
=
T
P
T
P
+
F
P
TPR = R = \frac{TP} {TP +FN} \\ FPR =\frac{FP}{TN + FP} \\ P =\frac{TP}{TP + FP}
TPR=R=TP+FNTPFPR=TN+FPFPP=TP+FPTP
可知,在数值关系上,TPR与 R是一致的,而其他的没有直接的联系。
5. 试证明式(2.22) A U C = 1 − L r a n k AUC =1 - \mathscr{L}_{rank} AUC=1−Lrank
答 :
根据式(2.20)
A
U
C
=
1
2
∑
i
=
1
m
−
1
(
x
i
+
1
−
x
i
)
∗
(
y
i
+
y
i
+
1
)
AUC = \frac{1}{2} \sum_{i=1}^{m-1}(x_{i+1} - x_{i}) * (y_i + y_{i+1})
AUC=21i=1∑m−1(xi+1−xi)∗(yi+yi+1)
在划分正反例时,当前为真正例时,有
(
x
,
y
+
1
m
+
)
(x,y+\frac{1}{m_+})
(x,y+m+1),若为假正例时,有
(
x
+
1
m
−
,
y
)
(x+\frac{1}{m_-},y)
(x+m−1,y)。
对式(2.22)进行恒等变换,如下所示:
L
r
a
n
k
=
1
m
+
m
−
∑
x
+
∈
D
+
∑
x
−
∈
D
−
(
I
I
(
f
(
x
+
)
<
f
(
x
−
)
)
+
1
2
I
I
(
f
(
x
+
)
=
f
(
x
−
)
)
=
1
m
+
m
−
∑
x
+
∈
D
+
[
∑
x
−
∈
D
−
I
I
(
f
(
x
+
)
<
f
(
x
−
)
)
+
1
2
∑
x
−
∈
D
−
I
I
(
f
(
x
+
)
=
f
(
x
−
)
]
=
∑
x
+
∈
D
+
[
1
m
+
m
−
∑
x
−
∈
D
−
I
I
(
f
(
x
+
)
<
f
(
x
−
)
)
+
1
2
1
m
+
m
−
∑
x
−
∈
D
−
I
I
(
f
(
x
+
)
=
f
(
x
−
)
]
=
∑
x
+
∈
D
+
1
2
∗
1
m
+
[
2
m
−
∑
x
−
∈
D
−
I
I
(
f
(
x
+
)
<
f
(
x
−
)
)
+
1
m
−
∑
x
−
∈
D
−
I
I
(
f
(
x
+
)
=
f
(
x
−
)
]
\mathscr{L}_{rank} = \frac{1}{m^+ m^-}\sum_{x^+ \in D^+}\sum_{x^- \in D^-}(\mathcal{II}(f(x^+) <f(x^-)) + \frac{1}{2} \mathcal{II}(f(x^+)=f(x^-)) \\ = \frac{1}{m^+ m^-}\sum_{x^+ \in D^+}[\sum_{x^- \in D^-}\mathcal{II}(f(x^+) <f(x^-)) + \frac{1}{2}\sum_{x^- \in D^-} \mathcal{II}(f(x^+)=f(x^-)]\\ = \sum_{x^+ \in D^+}[\frac{1}{m^+ m^-}\sum_{x^- \in D^-}\mathcal{II}(f(x^+) <f(x^-)) + \frac{1}{2}\frac{1}{m^+ m^-}\sum_{x^- \in D^-} \mathcal{II}(f(x^+)=f(x^-)]\\ = \sum_{x^+ \in D^+}\frac{1}{2} *\frac{1}{m^+} [\frac{2}{m^-}\sum_{x^- \in D^-}\mathcal{II}(f(x^+) <f(x^-)) +\frac{1}{m^-}\sum_{x^- \in D^-} \mathcal{II}(f(x^+)=f(x^-)]
Lrank=m+m−1x+∈D+∑x−∈D−∑(II(f(x+)<f(x−))+21II(f(x+)=f(x−))=m+m−1x+∈D+∑[x−∈D−∑II(f(x+)<f(x−))+21x−∈D−∑II(f(x+)=f(x−)]=x+∈D+∑[m+m−1x−∈D−∑II(f(x+)<f(x−))+21m+m−1x−∈D−∑II(f(x+)=f(x−)]=x+∈D+∑21∗m+1[m−2x−∈D−∑II(f(x+)<f(x−))+m−1x−∈D−∑II(f(x+)=f(x−)]
其中
1
m
−
∑
x
−
∈
D
−
I
I
(
f
(
x
+
)
<
f
(
x
−
)
)
\frac{1}{m^-}\sum_{x^- \in D^-}\mathcal{II}(f(x^+) <f(x^-))
m−1x−∈D−∑II(f(x+)<f(x−))
即为
1
m
−
\frac{1}{m^-}
m−1 乘以预测值比
x
+
x^+
x+大的假正例的个数
而
1
m
−
∑
x
−
∈
D
−
I
I
(
f
(
x
+
)
<
f
(
x
−
)
)
+
1
m
−
∑
x
−
∈
D
−
I
I
(
f
(
x
+
)
=
f
(
x
−
)
\frac{1}{m^-}\sum_{x^- \in D^-}\mathcal{II}(f(x^+) <f(x^-)) +\frac{1}{m^-}\sum_{x^- \in D^-} \mathcal{II}(f(x^+)=f(x^-)
m−1x−∈D−∑II(f(x+)<f(x−))+m−1x−∈D−∑II(f(x+)=f(x−)
即等于即为
1
m
−
\frac{1}{m^-}
m−1乘以预测值大于等于
x
+
x^+
x+的假正例的个数
上述两式即对应每一段的小梯形的上底与下底。其中
1
m
+
\frac{1}{m^+}
m+1则对应小梯形的高
通过遍历变动分类阈值,最终的
L
r
a
n
k
\mathscr{L}_{rank}
Lrank即为ROC曲线上面的白色区域的面积,所以有
A
U
C
=
1
−
L
r
a
n
k
AUC = 1- \mathscr{L}_{rank}
AUC=1−Lrank
6. 试述错误率与ROC曲线的联系
答:ROC曲线上是通过变动阈值,计算TPR和FPR,即每个阈值将会对应一个混淆矩阵,即ROC曲线上每一个对都会对应一个错误率。
7. 试证明任意一条ROC曲线都有一条代价曲线与之对应,反之亦然
8. Min-max规范化和z-score规范化是两种常用的规范化方法。令x和x’分别表示变量在规范化前后的取值,相应的,令 x m i n x_{min} xmin和 x m a x x_{max} xmax表示规范化前的最小值和最大值 x m i n ′ x_{min}^{'} xmin′和 x m a x ′ x_{max}^{'} xmax′表示规范化后的最小值和最大值, x ‾ \overline{x} x和 σ x \sigma_x σx分别表示规范化前的均值和标准差,则min-max规范化、z-score规范化分别如两个式子所示,试析二者的优缺点。
x ′ = x m i n ′ + x − x m i n x m a x − x m i n ∗ ( x m a x ′ − x m i n ′ ) x = x − x ‾ σ x x' = x_{min}^{'} + \frac{x-x_{min}}{x_{max} - x_{min}} *(x_{max}^{'} -x_{min}^{'}) \\ x = \frac{x - \overline{x} }{\sigma_x} x′=xmin′+xmax−xminx−xmin∗(xmax′−xmin′)x=σxx−x
答:
-
Min-max规范化:它是对数据进行线性变换,变换后的数据可以保留数据之间的关系。前提需要数据在 [ x m i n , x m a x ] 内 [x_{min} , x_{max}]内 [xmin,xmax]内,当数据的分布较为凌乱,数据的最小值和最大值差异大时,效果不佳。
-
z-score规范化:经过Z-score规范化后的数据,数据的均值为0,标准差为1。数据的分布更紧密,且呈高斯分布。