【吃瓜笔记】第一章&第二章
一、基本术语
在此术语不做解释,自行回忆,如果想不起来就去翻看资料回顾
-
示例/特征向量/样本
-
属性/特征
-
属性空间/样本空间/输入空间
-
学习/训练
-
训练样本/训练集
-
学得模型/假设
-
标记/样例/标记空间/输出空间
-
分类/回归
-
二分类(正类/反类)/多分类
-
测试/测试样本
-
聚类/簇
-
监督学习/无监督学习
划分依据:___________
-
泛化能力
-
归化/演绎:一般、特殊
-
概念学习/概念形成
-
版本空间
-
归纳偏好/偏好
-
奥卡姆剃刀
-
“没有免费的午餐”定理/NFL
-
错误率/精度/误差/训练误差/泛化误差
-
过拟合/欠拟合:无法彻底避免的是?
-
验证集
-
性能度量
-
查准率/查全率
-
真正例/假反例/真反例/假反例
二、模型评估与选择
1、评估方法
(1)、留出法
bold-out 直接将数据集D划分为两个互斥的集合,分别作为训练集S、测试集T D = S ∪ T D=S\cup T D=S∪T, S ∩ T = ∅ S \cap T = \emptyset S∩T=∅。
需要注意的是,训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分引入额外的偏差而对最终结果产生影响
分层采样:在划分过程保留类别比例的采样方式
单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随即划分、重复进行实验评估后取平均值作为留出法的评估结果
(2)、交叉验证法
将数据集D划分为k个大小相似的互斥子集,每一个子集都尽可能保持数据分布的一致性。每次使用k-1个子集的并集作为训练集,余下的那个子集作为测试集。最后返回这k个测试结果的均值。
交叉验证评估结果的稳定性和保真性在很大程度上取决于k的取值,“k折交叉验证”(k-fold cross validation)
(3)、自助法
以自助采样为基础,给定包含m个样本的数据,有放回的随机从数据集D进行采样,并将之放在D‘,重复m次后获得一个包含m个样本的数据集D‘
样本在m次采样中始终不被采到的概率: lim m → ∞ ( 1 − 1 m ) m = 1 e ≈ 0.368 \lim_{m \to \infty}(1-\frac{1}{m})^{m}= \frac{1}{e} \approx0.368 limm→∞(1−m1)m=e1≈0.368
包外估计:使用数据集中为出现在训练集中的数据测试得到的结果
自助法在数据集较小、难以有效划分训练/测试集时很有用,从促使数据集产生多个不同的训练集,这对集成学习等方法有很大的好处,但是这种方法也会引入估计偏差。
2、选择依据
(1)、性能度量
衡量模型泛化能力的评价标准
回归任务最常用的性能度量:均方误差
E
(
f
;
D
)
=
1
m
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
E(f;D) = \frac{1}{m} \sum_{i=1}^{m}(f(x_{i})-y_{i})^{2}
E(f;D)=m1i=1∑m(f(xi)−yi)2
对于数据分布
D
D
D和概率密度函数
p
(
⋅
)
p(·)
p(⋅)均方差:
E
(
f
;
D
)
=
∫
x
~
D
(
f
(
x
)
−
y
)
2
p
(
x
)
d
x
E(f;D)= \int_{x~D}(f(x)-y)^{2}p(x)dx
E(f;D)=∫x~D(f(x)−y)2p(x)dx
1)、错误率与精度
错误率
离散:
E
(
f
;
D
)
=
1
m
∑
i
=
1
m
I
(
f
(
x
i
)
≠
y
i
)
连续:
E
(
f
;
D
)
=
∫
x
∼
D
I
(
f
(
x
)
≠
y
)
p
(
x
)
d
x
离散:E(f;D)= \frac{1}{m} \sum_{i=1}^{m} \mathbb I (f(x_{i}) \neq y_{i}) \\ 连续:E(f;D)=\int_{x \sim D}\mathbb I (f(x) \neq y)p(x)dx
离散:E(f;D)=m1i=1∑mI(f(xi)=yi)连续:E(f;D)=∫x∼DI(f(x)=y)p(x)dx
精度
离散:
a
c
c
(
f
;
D
)
=
1
m
∑
i
=
1
m
I
(
f
(
x
i
)
=
y
i
)
=
1
−
E
(
f
;
D
连续:
a
c
c
(
f
;
D
)
=
∫
x
∼
D
I
(
f
(
x
)
=
y
)
p
(
x
)
d
x
=
1
−
E
(
f
;
D
)
\begin{equation}\begin{split} 离散:acc(f;D) &= \frac{1}{m} \sum_{i=1}^{m} \mathbb I (f(x_{i})=y_{i}) \\ &=1-E(f;D\\ 连续:acc(f;D) &= \int_{x \sim D} \mathbb I (f(x)=y)p(x)dx\\ &= 1-E(f;D) \end{split}\end{equation}
离散:acc(f;D)连续:acc(f;D)=m1i=1∑mI(f(xi)=yi)=1−E(f;D=∫x∼DI(f(x)=y)p(x)dx=1−E(f;D)
2)、查准率P、查全率R与 F 1 F1 F1
查准率: P = T P T P + F P 查全率: R = T P T P + F N 查准率 :P = \frac{TP}{TP+FP}\\ 查全率 :R = \frac{TP}{TP+FN} 查准率:P=TP+FPTP查全率:R=TP+FNTP
-
一般来说,查全率高时,查准率往往偏低;查准率高时,查全率往往偏低。
-
“P-R曲线”:以为查准率纵轴、查全率为横轴作图,就得到了查准率-查全率曲线
若学习器的P-R曲线被另一个学习器的曲线完全“包住”,则可以断言后者性能优于前者
-
“平衡点(Break-Even Point,BEP):查准率=查全率时的取值。
-
F 1 F1 F1是基于查全率与查准率的调和平均值定义的
F 1 F1 F1度量的一般形式:
F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R F_{\beta}= \frac{(1+{\beta}^2) \times P \times R}{({\beta}^2 \times P)+R}\\ Fβ=(β2×P)+R(1+β2)×P×R -
宏查全率/宏查准率/宏 F 1 F1 F1
-
微查全率/微查准率/微 F 1 F1 F1
3)、ROC与AUC
ROC全称为“受试者工作特性”(Receiver Operating Characteristic)曲线
- ROC曲线的纵轴是“真正例率”(TPR),横轴是“假正例率”(FPR)
T P R = T P T P + F N F P R = F P T N + F P TPR= \frac{TP}{TP+FN}\\ FPR= \frac{FP}{TN+FP} TPR=TP+FNTPFPR=TN+FPFP
ROC曲线图对角线对应于“随机猜测模型”,(0,1)对应于将所有正例排在所有反例之前的“理想模型”
与“P-R曲线”相似,若学习器的ROC曲线被另一个学习器的曲线完全“包住”,则可以断言后者性能优于前者
AUC(Area Under ROC Curve)是指ROC曲线下的面积
A U C = 1 − l r a n k l r a n k = 1 m + + m − ∑ x + ∈ D + ∑ x − ∈ D − ( I ( f ( x + ) < f ( x − ) ) + 1 2 I ( f ( x + ) = f ( x − ) ) ) AUC = 1-l_{rank}\\ l_{rank}= \frac{1}{{m}^+ +{m}^-} \sum_{{x}^+ \in {D}^+} \sum_{{x}^- \in {D}^-}(\mathbb I (f(x^+) < f(x^-))+ \frac{1}{2} \mathbb I (f(x^+) = f(x^-))) AUC=1−lranklrank=m++m−1x+∈D+∑x−∈D−∑(I(f(x+)<f(x−))+21I(f(x+)=f(x−)))
l r a n k l_{rank} lrank在几何意义上可以看作ROS曲线与y轴围成的面积
4)、代价敏感错误和代价曲线
为权衡不同类型错误造成的不同损失,可为错误赋予“非均等代价(unequal cost),以此达成“总体代价”(total cost)最小化。
代价曲线,横轴为正例概率代价(取值为[0,1]),纵轴为归一化代价(取值为[0,1])。ROC曲线上每一点对应了代价平面上的一条线段,将ROC曲线上的每个点转为代价平面上的一条线段,然后取所有曲线的下界,围成的面积即为在所有条件下学习器的期望总体代价。
(2)、比较检验
统计假设检验(hypothesis test)
假设检验中的“假设”是对学习器泛化错误率分布的某种判断或猜想
“t检验”
双边假设
交叉验证t检验
McNemar检验
Friendman检验和Nemenyi后续检验
(3)、偏差与方差
泛化误差可分解为偏差、方差和噪音之和
E
(
f
;
D
)
=
b
i
a
s
2
(
x
)
+
v
a
r
(
x
)
+
ϵ
2
E(f;D)= bias^2(x)+var(x)+ \epsilon^2
E(f;D)=bias2(x)+var(x)+ϵ2
方差:
v
a
r
(
x
)
=
E
D
[
(
f
(
x
;
D
)
−
f
‾
(
x
)
)
2
]
var(x) = \mathbb{E}_{D} [(f(x;D)- \overline f(x))^2]
var(x)=ED[(f(x;D)−f(x))2]
噪音:
ϵ
2
=
E
D
[
(
y
D
−
y
)
2
]
\epsilon^2 = \mathbb{E}_{D} [(y_{D}-y)^2]
ϵ2=ED[(yD−y)2]
偏差:期望输出与真实标记的差别
b
i
a
s
2
(
x
)
=
(
f
‾
(
x
)
−
y
)
2
bias^2(x) = (\overline f (x)-y)^2
bias2(x)=(f(x)−y)2
偏差-方差窘境