机器学习笔记
一、绪论
1.1基本术语
-
分类:若我们欲预测的是离散值,例如"好瓜" “坏瓜”,此类学习任务称为"分类" (classification);
-
回归:若欲预测的是连续值,例如西瓜成熟度 0.95 0.37此类学习任务称为"回归" (regression).
-
聚类:将训练集中的西瓜分成若干组,每组称为个"簇" (cluster); 这些自动形成的簇可能对应一些潜在的概念划分,颜色深浅,本地外地:这些概念事先不知,而且通常不有标记信息。
-
有监督学习:训练数据拥有标记信息,代表:分类,回归
-
无监督学习:训练数据拥无标记信息,代表:聚类
1.2假设空间
归纳(induction) 是从特殊到一般的"泛化" (generalization) 过程,即从具体的事实归结出一般性规律;
演绎(deduction)则是从一般到特殊的"特化" (specialization)叫过程,即从基础原理推演出具体状况;(己:当总结出一般规律后,将其套用在实例上)
假设空间:当实例的各个属性值确定以后,假设空间规模及大小也就确定。
下图是西瓜问题的假设空间,例如色泽有"青绿" “乌黑” “浅白"这三种可能取值;还需考虑到,也许"色泽"无论取什么值都合适,我们用通配符”*“来表示,还需考虑极端情况:有可能"好瓜"这个概念根本就不成立,用 ∅表示这个假设.这样,若"色泽” “根蒂” "敲、声"分别有 3,2,2种可能取值,则我们面临的假设空间规模大小为4 x 3 x 3 + 1 = 37.
1.3归纳偏好
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,称为"归纳偏好" (inductive bias) , 或简称为"偏好"()
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上"等效"的假设所迷惑,而无法产生确定的学习结果.
原则:“奥卡姆剃刀”,即"若有多个假设与观察一致,则选最简单的那个。
二、模型评估与选择
2.1经验误差与过拟合
- 训练误差(经验误差):学习器在训练集上的误差称为"训练误差" (training error) 或"经验误差" (empirical error) ;
- 泛化误差:新样本上的误差称为"泛化误差"。
- 过拟合:把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质。考虑的特征太多。
- 欠拟合:对训练样本的一般性质尚未学习充分,考虑的特征太少。
2.2评估方法
通常用测试集上的**“测试误差” (testing error) 作为泛化误差的近似**,测试集应该尽可能与训练互斥, 即测试样本尽量不在训练集中出现、未在训练过程中使用过。
下面三种常见的做法对D 数据集进行适当的处理产生训练集S和测试集T
2.2.1留出法
D=S U T,S ∩ T= ∅,S与T互斥,训练/测试集的划分要尽可能保持数据分布的一致性,在分类任务中至少要保持样本的类别比例相似,保留类别比例的采样方式通常称为**“分层采样”** (stratified sampling)。
注:在使用留出法时,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果.
2.2.2交叉验证法
“交叉验证法” (cross alidation) 将数据分为K个大小相似的互斥子集 ,每个子集尽可保持数据分布的一致性,即从通过分层采样得到后每次用k-1个子集的并集作为训练集。剩余的那个子集作测试集;这样就可获得k组训练/测试集,从而可进行 k次训练和测试。 最终返回的是测试结果的均值 K最常用 的取 10 ,此时称为 10折交叉验证。
2.2.3自助法
对数据集D挑选样本拷贝至D’,即在D‘中会有重复的数据,而D中会有一部分数据不会在D’中出现,取极限大约是在36.8%。当D与D’的数据量相同时,停止采样,将D’作训练集,将D中未在**D’**中出现的数据用作测试集。
注:自助法在数据集较小、难以有效划分训练/测试集时很有用;但自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差.因此,在初始数据量足够时,留出法和交叉验证法更常用一些.
2.3性能度量
定义:有衡量模型泛化能力的评价标准
回归任务最常用的性能度量是"均方误差" (mean squared error)
E
(
f
;
D
)
=
1
m
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
E(f ; D)=\frac{1}{m} \sum_{i=1}^{m}\left(f\left(\boldsymbol{x}_{i}\right)-y_{i}\right)^{2}
E(f;D)=m1i=1∑m(f(xi)−yi)2
更一般的,对于数据分布 和概率密度函数 p(.) 均方误差可描述为
E ( f ; D ) = ∫ x ∼ D ( f ( x ) − y ) 2 p ( x ) d x E(f ; \mathcal{D})=\int_{\boldsymbol{x} \sim \mathcal{D}}(f(\boldsymbol{x})-y)^{2} p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x} E(f;D)=∫x∼D(f(x)−y)2p(x)dx
2.3.1错误率与精度
错误率:分类错误的样本数占样本总数的比例,
**精度:**分类正确的样本数占样本总数的比例.
对样例集D分类错误率定义为
E
(
f
;
D
)
=
1
m
∑
i
=
1
m
I
(
f
(
x
i
)
≠
y
i
)
E(f ; D)=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(\boldsymbol{x}_{i}\right) \neq y_{i}\right)
E(f;D)=m1i=1∑mI(f(xi)=yi)
精度则定义为
acc ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 − E ( f ; D ) \begin{aligned} \operatorname{acc}(f ; D) &=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(\boldsymbol{x}_{i}\right)=y_{i}\right) \\ &=1-E(f ; D) \end{aligned} acc(f;D)=m1i=1∑mI(f(xi)=yi)=1−E(f;D)
2.3.2查准率,查全率与F1
对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive) 、假正例 (false positive) 、真反例(true negative)假反例 (false negative) 四种情形。
查准率P 与查全率R 分别定义为
P
=
T
P
T
P
+
F
P
P=\frac{T P}{T P+F P}
P=TP+FPTP
R
=
T
P
T
P
+
F
N
R=\frac{T P}{T P+F N}
R=TP+FNTP
查准率和查全率是一对矛盾的度量.一个偏向准确度,只有十足的把握才会确定以此满足准确度,而查全率则是都选上来保证完全覆盖。
以查准率为纵轴、查全率为横轴作图 ,就得到了查准率-查全率曲线,简称" P- R曲线",显示该曲线的图称为"P-R图" .
综合考虑查准率, 查全率的性能度量
- 平衡点 (Break-Event Point ,简称 BEP)就是这样一个度量,它是"查准率= 查全率"时的取值, 如图 2.3 学习器 C的BEP是0.64 ,而基于 BEP的比较,可认为学习器A 优于B。
- F1 度量:更为常用
F 1 = 2 × P × R P + R = 2 × T P 样例总数 + T P − T N . F 1=\frac{2 \times P \times R}{P+R}=\frac{2 \times T P}{\text { 样例总数 }+T P-T N} . F1=P+R2×P×R= 样例总数 +TP−TN2×TP.