说明
此文章根据B站【机器学习】【白板推导系列】整理,当作备忘,视频链接:
https://www.bilibili.com/video/BV1aE411o7qd?p=1&vd_source=9ad5a4e3520c719387cbea5ab7ba26a3
一、 资料推荐
教材
1、李航《机器学习方法》
公式推理比较多,新版加入了现代神经网络和深度学习部分
2、周志华《机器学习》
比较硬核,讲述的是传统机器学习的基础模型,建议搭配《机器学习公式详解》一起使用
3、PRML
模式识别领域介绍较多
4、ESL
5、Deep Learning 圣经 (张志华团队翻译)
课程
1、台大 林轩田《基石》《技法》
2、张志华《机器学习导论》《统计机器学习》
3、CS229(2017年版)
4、徐亦达 概率模型和GitHub笔记
5、台大 李宏毅 ML 2021~2023,MLDS 2018
李老师现在还在更新课程,B站有链接和配套的PPT以及CoLab的作业链接。
二、对于机器学习任务的理解:频率派vs贝叶斯派
对于样本 X = ( x 1 , . . . , x n ) n ∗ p X=(x_1,...,x_n)^{n*p} X=(x1,...,xn)n∗p以及参数 θ \theta θ,有 X ∼ P ( X ∣ θ ) X\sim P(X|\theta) X∼P(X∣θ)
频率派
θ
\theta
θ是位置的常量,可以通过极大似然求解,本质是一个求解优化Loss Function的问题:
θ
M
L
E
=
a
r
g
m
a
x
θ
L
(
θ
)
=
a
r
g
m
a
x
θ
l
o
g
P
(
X
∣
θ
)
\theta_{MLE}=argmax_\theta L(\theta)=argmax_\theta logP(X|\theta)
θMLE=argmaxθL(θ)=argmaxθlogP(X∣θ)
其中,
x
∼
P
(
x
∣
θ
)
x\sim P(x|\theta)
x∼P(x∣θ),
P
(
X
∣
θ
)
=
Π
p
(
x
i
∣
θ
)
P(X|\theta)=\Pi p(x_i|\theta)
P(X∣θ)=Πp(xi∣θ)
贝叶斯派
θ
\theta
θ也是作为随机变量,且
θ
∼
P
(
θ
)
\theta\sim P(\theta)
θ∼P(θ)为先验,则后验分布的贝叶斯估计为:
P
(
θ
∣
X
)
=
P
(
X
∣
θ
)
P
(
θ
)
P
(
X
)
P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)}
P(θ∣X)=P(X)P(X∣θ)P(θ);
那么后验估计的核为:
P
(
θ
∣
X
)
∝
P
(
X
∣
θ
)
⋅
P
(
θ
)
P(\theta|X)\propto P(X|\theta)·P(\theta)
P(θ∣X)∝P(X∣θ)⋅P(θ);
相应的最大后验估计(MAP):
θ
M
A
P
=
a
r
g
m
a
x
θ
P
(
X
∣
θ
)
⋅
P
(
θ
)
\theta_{MAP}=argmax_\theta P(X|\theta)·P(\theta)
θMAP=argmaxθP(X∣θ)⋅P(θ);
注意到后验分布中分母部分可以写作积分形式:
∫
θ
p
(
X
∣
θ
)
p
(
θ
)
d
θ
\int_\theta p(X|\theta)p(\theta)d\theta
∫θp(X∣θ)p(θ)dθ,带入
θ
M
A
P
\theta_{MAP}
θMAP求出后验分布,于是贝叶斯角度的任务本质是求解一个积分问题。