对于概率模型而言,存在两种学派:频率派和贝叶斯派。
频率派 -> 统计机器学习
贝叶斯派 -> 概率图模型
参考书籍:
- 李航《统计学习方法,侧重于以频率派的较角度,十个算法(感 K 朴 决 逻, 支 提(boosting) E 隐 条)
- 周志华 “西瓜书”《机器学习》,囊括多种算法
- PRML 模式识别与机器学习 ,侧重于以贝叶斯派的角度,(回 分 神 核 稀 ;图 混 近 采 连;顺 组 )
- MLAPP 以概率的角度看机器学习 ,百科全书,侧重于以贝叶斯派的角度
- ESL 统计学习的基本要素 ,侧重于以频率派的较角度
- Deep Learning 花书 圣经 [中译本,张志华团队]
参考视频:
- 台大 林轩田 机器学习基石->讲得很精彩,也很通俗化(VC therory; 正则化;线性模型:linear regression,logistic regression, PLA,感知机);机器学习技法(SVM->讲的很好,决策树,随机森林,神经网络,deep learning->浅谈)
- 张志华 机器学习导论(以频率派的角度) 统计机器学习(以贝叶斯的角度,偏理论数学)
- 徐亦达 2015 概率模型 (EM,MCMC,HMM, 滤波算法) github/notes(很全面)
- 台大 李宏毅 ML2017 MLDS2018
Notes
样本集 X 包含N个样本, 每个样本的特征维度为p(也就是说 每一样本是长度为p的列向量):
X
=
(
x
1
,
x
2
,
.
.
.
,
x
N
)
T
∈
R
N
×
p
x
i
=
(
x
1
i
,
x
2
i
,
.
.
.
,
x
p
i
)
T
∈
R
p
×
1
X = (x^1, x^2, ..., x^N)^T \in \mathbb{R^{N \times p}} \\ x^i = (x_1^i, x_2^i, ..., x_p^i)^T \in \mathbb{R^{p \times1}}
X=(x1,x2,...,xN)T∈RN×pxi=(x1i,x2i,...,xpi)T∈Rp×1
概率模型:
x
∼
p
(
x
∣
θ
)
x \sim p(x|\theta)
x∼p(x∣θ)
频率派的观点
对于概率模型
x
∼
p
(
x
∣
θ
)
x \sim p(x|\theta)
x∼p(x∣θ),频率派认为参数
θ
\theta
θ是未知常量,而数据样本
x
x
x是随机变量。关注点是数据,而将未知常量估计出来。最常用的就是采用最大似然估计去对参数进行估计:
x
i
∼
p
(
x
∣
θ
)
s
a
t
i
f
i
e
d
i
.
i
.
d
.
c
o
n
d
i
t
i
o
n
p
(
X
∣
θ
)
=
∏
i
=
1
N
p
(
x
i
∣
θ
)
L
(
θ
)
=
l
o
g
p
(
X
∣
θ
)
θ
M
L
E
=
arg
max
l
o
g
p
(
X
∣
θ
)
=
arg
max
∑
i
=
1
N
l
o
g
p
(
x
i
∣
θ
)
x_i \sim p(x|\theta) \quad satified \quad i.i.d. \quad condition\\ p(X|\theta) = \prod_{i=1}^N p(x^i|\theta) \\ \mathcal{L}(\theta) = log p(X|\theta)\\ \theta_{MLE} = \mathop{\arg\max} log p(X|\theta) = \mathop{\arg\max} \sum_{i=1}^N log p(x^i|\theta)
xi∼p(x∣θ)satifiedi.i.d.conditionp(X∣θ)=i=1∏Np(xi∣θ)L(θ)=logp(X∣θ)θMLE=argmaxlogp(X∣θ)=argmaxi=1∑Nlogp(xi∣θ)
频率派对应的是统计机器学习方法,求解问题实际上是一个优化问题,通过构建模型,得到
l
o
s
s
f
u
n
c
t
i
o
n
loss \quad function
lossfunction,最后通过最小化损失函数求解得到参数。
贝叶斯派的观点
对于概率模型
x
∼
p
(
x
∣
θ
)
x \sim p(x|\theta)
x∼p(x∣θ),贝叶斯派认为参数是服从某种概率分布的随机变量
θ
∼
p
(
θ
)
\theta \sim p(\theta)
θ∼p(θ)。该分布称为参数的先验分布。参数的后验分布为:
p
(
θ
∣
X
)
=
p
(
X
∣
θ
)
⋅
p
(
θ
)
p
(
X
)
=
p
(
X
∣
θ
)
⋅
p
(
θ
)
∫
θ
p
(
X
∣
θ
)
⋅
p
(
θ
)
d
θ
p(\theta|X) = \frac{p(X|\theta) \cdot p(\theta)}{p(X)} = \frac{p(X|\theta) \cdot p(\theta)}{\int_{\theta}p(X|\theta)\cdot p(\theta)d\theta}
p(θ∣X)=p(X)p(X∣θ)⋅p(θ)=∫θp(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)
其中,概率分布
p
(
X
∣
θ
)
p(X|\theta)
p(X∣θ)称为似然。
常用的参数估计方法为最大后验概率估计:
θ
M
A
P
=
arg
max
l
o
g
p
(
θ
∣
X
)
=
arg
max
p
(
X
∣
θ
)
⋅
p
(
θ
)
\theta_{MAP} = \mathop{\arg\max} log p(\theta|X) = \mathop{\arg\max} p(X|\theta) \cdot p(\theta)
θMAP=argmaxlogp(θ∣X)=argmaxp(X∣θ)⋅p(θ)
贝叶斯估计:
p
(
θ
∣
X
)
=
p
(
X
∣
θ
)
⋅
p
(
θ
)
∫
θ
p
(
X
∣
θ
)
⋅
p
(
θ
)
d
θ
p(\theta|X) = \frac{p(X|\theta) \cdot p(\theta)}{\int_{\theta}p(X|\theta)\cdot p(\theta)d\theta}
p(θ∣X)=∫θp(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)
贝叶斯预测,对于给定预测样本:
p
(
x
~
∣
X
)
=
∫
θ
p
(
x
~
,
θ
∣
X
)
d
θ
=
∫
θ
p
(
x
~
∣
θ
)
⋅
p
(
θ
∣
X
)
d
θ
p(\tilde{x}|X) = \int_{\theta}p(\tilde{x},\theta|X)d\theta = \int_{\theta}p(\tilde{x}|\theta)\cdot p(\theta|X)d\theta
p(x~∣X)=∫θp(x~,θ∣X)dθ=∫θp(x~∣θ)⋅p(θ∣X)dθ
贝叶斯派对应的是概率图模型,实际上是一个求解积分的问题,可以采用Monte Carlo Method(MCMC)进行采样。