频率派和贝叶斯派-机器学习-白板推导笔记1
所有内容均为从www.bilibili.com/video/av70839977的视频课中总结,并添加了一些浅薄的个人理解。本人小白,如有错误,欢迎指正。
参数简介:
X
:
d
a
t
a
→
X
=
(
x
1
,
x
2
,
⋯
,
x
n
)
T
=
[
x
11
x
12
⋯
x
1
p
x
21
x
22
⋯
x
2
p
⋮
⋮
⋮
x
n
1
x
n
2
⋯
x
n
p
]
X:data \to X=(x_1,x_2,\cdots,x_n)^T=\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1p}\\ x_{21}&x_{22}&\cdots&x_{2p}\\ \vdots&\vdots&&\vdots\\ x_{n1}&x_{n2}&\cdots&x_{np} \end{bmatrix}
X:data→X=(x1,x2,⋯,xn)T=⎣⎢⎢⎢⎡x11x21⋮xn1x12x22⋮xn2⋯⋯⋯x1px2p⋮xnp⎦⎥⎥⎥⎤
θ
:
p
a
r
a
m
e
t
e
r
\theta :parameter
θ:parameter
概
率
模
型
:
x
∼
p
(
x
∣
θ
)
概率模型:x\sim p(x|\theta)
概率模型:x∼p(x∣θ)
频率派
θ : 未 知 的 常 量 , x 服 从 一 定 的 概 率 分 布 , 是 随 机 变 量 。 \theta:未知的常量,x服从一定的概率分布,是随机变量。 θ:未知的常量,x服从一定的概率分布,是随机变量。 θ M L E = arg max θ log P ( X ∣ θ ) \theta_{MLE}=\argmax \limits_\theta \log^{P(X|\theta)} θMLE=θargmaxlogP(X∣θ)
频率派研究的问题:统计机器学习,最后是一个优化问题。先设计模型,再找lossfunction,最后利用algorithm求解。
贝叶斯派
θ
:
是
随
机
变
量
服
从
一
定
的
概
率
分
布
θ
∼
P
(
θ
)
,
P
(
θ
)
是
先
验
\theta :是随机变量服从一定的概率分布 \theta \sim P(\theta),P(\theta)是先验
θ:是随机变量服从一定的概率分布θ∼P(θ),P(θ)是先验
贝叶斯公式:
P
(
θ
∣
X
)
=
P
(
X
∣
θ
)
P
(
θ
)
P
(
X
)
∝
P
(
X
∣
θ
)
P
(
θ
)
,
其
中
P
(
X
)
=
∫
θ
P
(
X
∣
θ
)
P
(
θ
)
d
θ
P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)}\propto P(X|\theta)P(\theta),其中P(X)=\int_\theta P(X|\theta)P(\theta)d\theta
P(θ∣X)=P(X)P(X∣θ)P(θ)∝P(X∣θ)P(θ),其中P(X)=∫θP(X∣θ)P(θ)dθ
P
(
X
∣
θ
)
:
似
然
,
P
(
θ
)
:
先
验
,
P
(
θ
∣
X
)
后
验
P(X|\theta):似然,P(\theta):先验,P(\theta|X)后验
P(X∣θ):似然,P(θ):先验,P(θ∣X)后验
MAP(最大后验估计):
θ
M
A
P
=
arg max
θ
P
(
θ
∣
X
)
=
arg max
θ
P
(
X
∣
θ
)
P
(
θ
)
\theta_{MAP}=\argmax \limits_\theta P(\theta|X)=\argmax \limits_\theta P(X|\theta)P(\theta)
θMAP=θargmaxP(θ∣X)=θargmaxP(X∣θ)P(θ)
MAP不是标准的贝叶斯估计,标准贝叶斯估计如下:
P
(
θ
∣
X
)
=
P
(
X
∣
θ
)
P
(
θ
)
∫
θ
P
(
X
∣
θ
)
P
(
θ
)
d
θ
(
这
个
积
分
很
难
求
)
P(\theta|X)=\frac{P(X|\theta)P(\theta)}{\int_\theta P(X|\theta)P(\theta)d\theta}(这个积分很难求)
P(θ∣X)=∫θP(X∣θ)P(θ)dθP(X∣θ)P(θ)(这个积分很难求)
贝叶斯预测:
已
知
X
,
现
有
一
个
新
数
据
x
~
,
求
P
(
x
~
∣
X
)
已知X,现有一个新数据\widetilde{x},求P(\widetilde{x}|X)
已知X,现有一个新数据x
,求P(x
∣X)
P
(
x
~
∣
X
)
=
∫
θ
P
(
x
~
,
θ
∣
X
)
d
θ
=
∫
θ
P
(
x
~
∣
θ
)
P
(
θ
∣
X
)
d
θ
P(\widetilde{x}|X)=\int_\theta P(\widetilde{x},\theta|X)d\theta=\int_\theta P(\widetilde{x}|\theta)P(\theta|X)d\theta
P(x
∣X)=∫θP(x
,θ∣X)dθ=∫θP(x
∣θ)P(θ∣X)dθ这就是为什么我们要求后验概率。
贝叶斯派研究的问题:概率图模型,最后是一个求积分问题(可以用蒙特卡洛模拟来求解)。