机器学习(周志华著) Datawhale打卡第一天
第一章
定义
监督学习(supervised learning):分类与回归等算法,训练数据有标记
无监督学习(unsupervised learning):聚类等算法,训练数据无标记
NFL(No Free Lunch Theorem):假设问题函数均匀分布,那么预测训练集外的数据时的误差与学习算法无关(即如果假设所预测的问题是无偏好的,那么学习算法的选择将毫无意义)。
“从样例中学习”的常见流派
流派 | 特点 | 具体算法 |
---|---|---|
符号主义 | 基于明确逻辑表达式,假设空间太大,复杂度高 | 决策树、ILP(Inductive Logic Programming) |
连接主义 | 基于神经网络,产生的是“黑箱模型”,缺乏严格理论基础 | 神经网络 |
统计学习 | 基于统计理论 | 支持向量机(SVM)、核方法 |
第二章
定义
错误率(error rate):在m个样本中有a个分类错误,则错误率
E
=
a
/
m
E=a/m
E=a/m
精度(accuracy):1-错误率
误差(error):学习器的实际预测输出与样本的真实输出间的差异
经验误差(empirical error)/训练误差(training error):学习器在训练集上的误差
泛化误差(generalization error):在新样本上的误差
数据集划分方法
留出法:直接将数据集 D D D划分成两个互斥集合,训练集 S S S和测试集 T T T, D = S ∪ T D=S\cup T D=S∪T, S ∩ T = ∅ S\cap T=\emptyset S∩T=∅
交叉验证法:将数据集 D D D划分成k个大小相似的互斥子集,每个子集 D i D_i Di尽可能保持数据分布的一致性,每次取k-1个子集作为训练集,余下一个子集作为测试集,如此往复进行k次训练和验证
自助法(bootstrapping):包含m个样本的数据集 D D D,对它进行采样得到 D ′ D' D′:每次从 D D D中随机挑选一个样本,拷贝放入 D ′ D' D′中,再放回 D D D中,重复m次。样本在m次中始终不被取到的概率为 l i m m → ∞ ( 1 − 1 m ) m = 1 e ≈ 0.368 lim_{m\rightarrow\infty} (1-\frac{1}{m})^m=\frac{1}{e}\approx0.368 limm→∞(1−m1)m=e1≈0.368,将 D − D ′ D-D' D−D′作为测试集
性能
均方误差(回归常用): E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D)=\frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i)^2 E(f;D)=m1∑i=1m(f(xi)−yi)2
连续均方误差: E ( f ; D ) = ∫ x ∼ D f ( ( x ) − y ) 2 p ( x ) d x E(f;D)=\int_{x{\sim}D}f((x)-y)^2p(x)dx E(f;D)=∫x∼Df((x)−y)2p(x)dx
错误率(二分类常用): E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) E(f;D)=\frac{1}{m}\sum_{i=1}^{m}I(f(x_i)\neq y_i) E(f;D)=m1∑i=1mI(f(xi)=yi)
查准率: P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP(其中 T P TP TP为真正例, F P FP FP为假正例)
查全率: R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP(其中 T P TP TP为真正例, F N FN FN为假反例)
泛化误差:定义方差
v
a
r
(
x
)
=
E
D
[
(
f
(
x
;
D
)
−
f
‾
(
x
)
)
]
var(x)=E_D[(f(x;D)-\overline{f}(x))]
var(x)=ED[(f(x;D)−f(x))]
噪声
ε
2
=
E
D
[
(
y
D
−
y
)
2
]
\varepsilon^2=E_D[(y_D-y)^2]
ε2=ED[(yD−y)2]
期望输出与真实标记的偏差
b
i
a
s
2
(
x
)
=
(
f
‾
(
x
)
−
y
)
2
bias^2(x)=(\overline{f}(x)-y)^2
bias2(x)=(f(x)−y)2
则泛化误差
E
(
f
;
D
)
=
b
i
a
s
2
(
x
)
+
v
a
r
(
x
)
+
ε
2
E(f;D)=bias^2(x)+var(x)+\varepsilon^2
E(f;D)=bias2(x)+var(x)+ε2