Pattern Recognition and Machine Learning 第二章概率分布

最新推荐文章于 2022-05-18 16:08:18 发布

VIP文章 Danliwoo

最新推荐文章于 2022-05-18 16:08:18 发布

阅读量1.2k

点赞数

分类专栏：机器学习 |--PRML 文章标签：模式识别机器学习概率分布高斯分布

本文链接：https://blog.csdn.net/danliwoo/article/details/53946734

版权

标签：机器学习

概率分布

这章主要介绍一些常用的分布模型。
对于变量x的N次观测形成独立同分布的向量 $\vec x=(x_1,...,x_N)$ ，以此对x做一个密度估计，求出 $p(x)$ .

密 度 估 计 ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ 参 数 方 法 ⎧ ⎩ ⎨ ⎪ ⎪ 给 出 分 布 形 式 ， 通 过 最 大 似 然 、 最 大 后 验 等 调 整 参 数 大 小 （ 多 为 指 数 族 分 布 ） 离 散 变 量 ： 二 项 式 、 多 项 式 分 布 连 续 变 量 ： G a u s s 分 布 非 参 数 方 法 ： 直 方 图 、 最 近 邻 、 核 函 数 等

$密度估计\begin{cases} 参数方法 \begin{cases} 给出分布形式，通过最大似然、最大后验等调整参数大小\\ （多为指数族分布）\\ ~~~~离散变量：二项式、多项式分布\\ ~~~~连续变量：Gauss分布 \end{cases}\\ 非参数方法：直方图、最近邻、核函数等 \end{cases}$

参数方法

由最基本的概率模型可以给出函数表达式，而其中的参数则由样本数据训练出来。

二项式分布

自变量只能取0或1

伯努利分布 $B e r n (x | μ) = μ x (1 - μ) 1 - x$ $Bern(x|\mu)=\mu^x(1-\mu)^{1-x}$ 在设定参数 $\mu$ 后，x的概率密度如上。解决了投掷一次硬币的问题。由经典概率论中求最大似然的方法可知 $μ M L = 1 N \sum x n$ $\mu_{ML}={1\over N}\sum x_n$ 因此这个求和就是该分布下的充分统计量1。
二项分布 $B i n (m | N, μ) = C m N μ m (1 - μ) N - m$ $Bin(m|N,\mu)=C_N^m\mu^m(1-\mu)^{N-m}$ 是伯努利分布的扩展，相当于做了N次投掷操作，且每次的值是独立同分布的。令 $m={1\over N}\sum x_n$ ，可以通过样本空间来推出上面公式，并由期望的加法操作得到m的期望 $E[m]=N\mu$ 。
但在小数据时，这些由经典概率论得到的参数容易过拟合。例如只投了三次硬币且恰好都为正，那么之后每次投正的概率是1。然而这和常理不符。因此需要贝叶斯的方法来重新解决这个问题。
Beta分布2 $B e t a (μ | a, b) = Γ ( a + b ) Γ ( a ) Γ ( b ) μ a - 1 (1 - μ) b - 1$ $Beta(\mu|a,b)={\Gamma(a+b)\over \Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}$ 这里先给定似然是正比于 $\mu^x(1-\mu)^{1-x}$ 的，再有先验是正比于 $\mu^{a-1}(1-\mu)^{b-1}$ 的，那么由于共轭性，后验正比于 $\mu^{m+a-1}(1-\mu)^{l+b-1}$ ，而前面的归一化参数则可以通过积分确定。其中 $l=N-m$ 。
由于一开始可以初始化参数a，b，可以减少过拟合的发生。数据集越大，参数方差越小，参数也越来越确定。前一个实验的后验会作为后一个实验的先验，逐步提高准确性。并且这种顺序方法只依赖于数据的独立性，不必存储数据，只需要流水线地处理数据修正参数即可。
在平均意义上，频率学同样可以解释参数的方差为什么越来越小 $v a r θ [θ] = E D [v a r θ [θ | D]] + v a r θ [E θ [θ | D]] \geq E D [v a r θ [θ | D]]$ $var_\theta[\theta]=E_D[var_\theta[\theta|D]]+var_\theta[E_\theta[\theta|D]]\geq E_D[var_\theta[\theta|D]]$ 即前验参数方差大于后验参数方差的均值。

多项式分布

变量取值可以有K个但每次只能取一个，则可以用K维向量来表示，取第k个结果则将对应第k维标1，其余标0。满足 $\vec x=(0,...,1,...,0)^T且\sum x_k=1$ ，可得先验

p (x ⃗ | μ ⃗) = Π μ

最低0.47元/天解锁文章

Danliwoo

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Pattern Recognition and Machine Learning 第二章概率分布

标签：机器学习概率分布这章主要介绍一些常用的分布模型。对于变量x的N次观测形成独立同分布的向量x⃗ =(x1,...,xN)\vec x=(x_1,...,x_N)，以此对x做一个密度估计，求出p(x)p(x). 密度估计⎧⎩⎨⎪⎪⎪⎪参数方法⎧⎩⎨⎪⎪给出分布形式，通过最大似然、最大后验等调整参数大小（多为指数族分布）离散变量：二项式、多项式分布连续变量：Gauss分布非参
复制链接

扫一扫