数据表示
X:表示样本数据:
{
x
1
x
2
.
.
.
x
n
}
T
\{x_1\ x_2 \ ... \ x_n\}^T
{x1 x2 ... xn}T,其中
x
i
是
p
维
的
x_i 是p维的
xi是p维的,整体样本是
n
∗
p
维
n*p维
n∗p维
也可以表示为:
[
x
11
x
12
x
13
.
.
.
x
1
p
x
21
x
22
x
23
.
.
.
x
2
p
x
31
x
32
x
33
.
.
.
x
3
p
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
n
1
x
n
2
x
n
3
.
.
.
x
n
p
]
\left[ \begin{matrix} x_{11} & x_{12} & x_{13} & ... & x_{1p} \\ x_{21} & x_{22} & x_{23} & ... & x_{2p}\\ x_{31} & x_{32} & x_{33} & ... & x_{3p} \\ & &..............\\ x_{n1} & x_{n2} & x_{n3} & ... & x_{np} \end{matrix} \right]
⎣⎢⎢⎢⎢⎡x11x21x31xn1x12x22x32xn2x13x23x33..............xn3............x1px2px3pxnp⎦⎥⎥⎥⎥⎤
频率派:
假
定
θ
是
未
知
的
常
量
假定 \theta 是未知的常量
假定θ是未知的常量, 通过极大似然(MLE )方法获取
θ
\theta
θ
贝叶斯派:
θ
不
是
未
知
的
常
量
,
是
服
从
一
定
的
概
率
分
布
\theta 不是未知的常量,是服从一定的概率分布
θ不是未知的常量,是服从一定的概率分布, 通过贝叶斯定理获取后验
θ
\theta
θ
贝叶斯定理:
p
(
θ
∣
x
)
=
p
(
x
∣
θ
)
p
(
θ
)
p
(
x
)
p(\theta|x)=\displaystyle\frac{p(x|\theta)p(\theta)}{p(x)}
p(θ∣x)=p(x)p(x∣θ)p(θ)
其中:
p
(
θ
∣
x
)
称
为
后
验
,
p
(
x
∣
θ
)
称
为
似
然
,
p
(
θ
)
称
为
先
验
p(\theta|x) 称为后验,p(x|\theta) 称为似然,p(\theta)称为先验
p(θ∣x)称为后验,p(x∣θ)称为似然,p(θ)称为先验
由于
p
(
x
)
对
于
θ
的
分
布
无
关
,
所
以
p
(
θ
∣
x
)
可
以
正
比
于
p
(
x
∣
θ
)
p
(
θ
)
p(x)对于\theta的分布无关,所以p(\theta|x)可以正比于p(x|\theta)p(\theta)
p(x)对于θ的分布无关,所以p(θ∣x)可以正比于p(x∣θ)p(θ)
也叫最大后验概率MAP
估计
θ
的
目
的
:
求
出
概
率
分
布
的
整
体
\theta 的目的:求出概率分布的整体
θ的目的:求出概率分布的整体
求出概率分布后是为了预测,在给定
X
服
从
于
p
(
θ
)
分
布
X 服从于p(\theta)分布
X服从于p(θ)分布
当有新数据
x
^
,
求
p
(
x
^
∣
X
)
可
以
通
过
θ
把
二
者
联
系
起
来
\hat x,求p(\hat x|X)可以通过\theta 把二者联系起来
x^,求p(x^∣X)可以通过θ把二者联系起来,
p
(
x
^
∣
X
)
=
∫
θ
p
(
x
^
,
θ
∣
X
)
d
θ
=
∫
θ
p
(
x
^
∣
θ
)
p
(
θ
∣
X
)
d
θ
p(\hat x|X) = \int_\theta p(\hat x , \theta|X)d\theta= \int_\theta p(\hat x|\theta)p(\theta|X)d\theta
p(x^∣X)=∫θp(x^,θ∣X)dθ=∫θp(x^∣θ)p(θ∣X)dθ
频率派发展为统计机器学习,本质是优化问题:
步骤:
1:建模 (概率模型,生成模型,判别模型等)
2:设计损失函数
3:梯度下降求解
贝叶斯派本质是求积分,可求解析解或者近似解,
近似解的方法包括MCMC,蒙特卡洛,吉布斯等采样方法