模式识别 chapter 2




琐碎 及 补充知识

感觉对于条件概率 P ( x a ∣ x b ) P(x_a|x_b) P(xaxb),一个很好的解读就是: P ( x a ∣ x b ) P(x_a|x_b) P(xaxb)只有 x a x_a xa是变量,其中 x b x_b xb被当作常数。


条件概率的期望

x给定的情况下 --》 这就是条件的含义
在这里插入图片描述
证明如下

在这里插入图片描述


共轭

motivation

贝叶斯估计的一个好处就是我们可以使用旧数据的后验当作先验,所以1. 数据集扩大了以后我们可以不用重新检验 ; 2.可以“在线学习”【详见下面的 顺序学习】
这个时候叫要求我们的先验和后验分布的形式是一致的 – 后验和先验共轭分布

共轭的性质

后验 正比于 likelihood *先验
所以 如果想要后验和先验一致,我们还得考量likelihood的分布形式,很tuitive的一个想法是先验和likelihood的分布要一致(但是这个只是必要条件哦 )

就比如说
二项分布是Beta分布的特殊形式,所以我们给二项分布的先验就是Beta分布
多项分布是迪利克雷分布的特殊形式,所以我们给多项分布的先验就是迪利克雷分布

  • 如下是一些conjugate pair
    在这里插入图片描述

Multinomial 多项分布

  • 不是polynomial distribution多项式分布

本文除了译成多项式分布(错误说法)还有译成 多元分布 ,建议都改成多项分布

  • 是二项分布的推广
    在这里插入图片描述

马氏距离 ( 在PCA里面也用到 )

在这里插入图片描述



本章思路

  • 主要是讨论 概率分布
    在这里插入图片描述
  • 从两方面展开
    • 参数化方法
      • 离散随机变量⼆项分布多项分布,以及连续随机变量⾼斯分布,引出了指数族分布
    • 非参数( nonparametric )密度估计方法
      • 这种⽅法中分布的形式通常依赖于数据集的规模。这些模型仍然具有参数,但是这些参数控制的是模型的复杂度⽽不是分布的形式。本章最后,我们会考虑三种⾮参数化⽅法,分布依赖于直⽅图、最近邻以及核函数。



参数化方法

二项分布

Beta分布

这个对与Beta分布的理解很好

https://www.zhihu.com/question/30269898

  • 概率的概率
  • p54 共轭性 conjugacy
    在这里插入图片描述

这也是贝叶斯经常被诟病的一个点——先验经常用容易计算的 ,而不是更多地从真实的角度出发

  • 为什么会产生共轭 & 共轭先验的形式是随便选的么

能产生共轭就是因为先验的形式和似然函数的形式(也就是我们选定的分布的形式)一致,所以后验才能也跟这两者一致

  • p54 超参数的定义: 控制了参数的概率分布 ==》 其实我觉得就是人给定的参数,没法儿从数据里面train出来的,参数是可以从数据里面train出来的

  • beta分布随着a和b的变换图如下:
    beta分布随着a、b变换的图

  • a、b不一定要是整数

  • a、b越大,则图像越尖


构造共轭先验函数

二项分布与Beta分布
  • 形式上
    在这里插入图片描述
    是因为二项分布的这个形式,我们才选取beta分布的,因为二者形式类似
    在这里插入图片描述
  • 这个归一化系数来源于Beta函数的定义
    在这里插入图片描述

Beta函数有三个定义,这里取的是最上和最下的两个
第二个形式就是把 t = m / ( 1 + m ) t = m/(1+m) t=m/(1+m) 带进去 然后变量替换 得到的 == 注意积分上下限的变换 导致适用场景不一样

在这里插入图片描述

可以看到:如果⼀个数据集⾥有m次观测为x = 1,有l次观测为x = 0,那么从先验概率到后
验概率,a的值变⼤了m,b的值变⼤了l。

  • 这让我们可以简单地把先验概率中的超参数a和b分别 看成x = 1和x = 0的有效观测数(effective number of observation)

  • 我认为这就是先验的用处,把先验知识当作有效的样本数据进行纠偏【上面那个知乎链接说得就挺好】

    • 其实我也可以看成m和 l 放大了 a 和 b ,所以图像会越来越尖 【详见上面“beta分布随着a、b变换的图”】 ,meanwhile方差趋近于0

多项分布与Dirichlet分布

关于多项分布中参数的极大似然估计:

在这里插入图片描述

(2.31)实际上是一个拉格朗日的极大极小问题,这里极大化目标函数 实际上是一个凸优化问题,所以我们加上拉格朗日乘子后的极大极小问题可以转化成极小极大问题 ( 强对偶 )

先对mu求导,然后带进去再对lambda求导,也能得得到同样的答案

这里说 把公式2.32带进等式,为什么也能得到相同的答案呢?
因为这里的约束是等式约束

多项分布的形式

在这里插入图片描述

我们搞清楚,参数一直是 μ \mu μ m k m_k mk是我们的观测量


迪利克雷 先验分布

在这里插入图片描述

对于迪利克雷分布,可以看到随着观测量的增大,会出现能量很大的尖峰 ( 这里参数是被限在一个单纯形里面的情况为例 )
在这里插入图片描述




多元高斯分布 tl;dr 需要看xx的课件

在这里插入图片描述
其实多元高斯分布一开始是这个形式,但是我们不知道 Σ \Sigma Σ就是协方差,是推导的出来的
前面看作是归一化系数 ( D是自变量维度 ),可以看出归一化系数变量的均值无关,只和协方差有关


p63 概念引入

  • 潜在变量(latent Variable)
    隐藏变量(hidden variable)
    未观察变量(unobserved variable)
    说的都是同一个东西

  • precision matrix


p65 schur complement 舒尔补

这里需要补充一下

配方法求条件概率分布和边缘高斯分布 ( complete the square )


主要思想

我们⾼效估计这个概率分布的 策略是把注意⼒集中于联合分布的指数项的⼆次型,从这个二次型系数的比对中找出边缘分布p(xa)的均值和协⽅差。


具体过程

一个高维高斯分布的指数项可以写成:
在这里插入图片描述

再结合如下三个式子

在这里插入图片描述
在这里插入图片描述

前两个是用于辅助最后一个式子的在这里插入图片描述

对比最后一个式子和第一个式子,如果我们求得是 x a ∣ x b x_a|x_b xaxb的数字特征,那么就可以把 x b x_b xb看作是常量,只有 x a x_a xa是变量,然后我们就分别找出 x a x_a xa的二次项系数和一次项系数 【分别是 − 1 / 2 Σ − 1 -1/2 \Sigma^{ -1} 1/2Σ1 Σ − 1 μ \Sigma^{ -1}\mu Σ1μ 和第三个式子进行比对即可。

得到结论:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
? 这里最终得到的推论是什么啊



高斯分布的贝叶斯定理

线性高斯模型

Given Gaussian distribution p(x) and p(y|x),而且p(y|x)的mean是x的线性函数,covariance与x无关。求:p(y),p(x|y)。

? 查笔记 这是真实的定义吗。。



2.3.6 高斯分布的贝叶斯推断 (Bayesian inference)

最大似然框架给出了点估计,现在我们要引入参数的先验分布进行贝叶斯估计,这样才能避免过拟合


假定方差已知

在这里插入图片描述
最大似然函数的形式为µ的⼆次型的指数形式,所以我们选跟似然函数一致的先验分布,也即高斯分布,则后验概率会跟他们一致(intuitive的原因是后验分布是他们的乘积,detailed的解释 前面已经证明过了)

得到
在这里插入图片描述
在这里插入图片描述

? 这里的 μ n \mu_n μn是什么 怎么推出来的


假定均值已知

在这里插入图片描述
其实我觉得此处最直观的gamma函数定义应该是:
在这里插入图片描述
tl;dr

均值和方差都不知 tl;dr

使用 ⾼斯-Wishart分布 作为先验



2.3.7 学⽣t分布 tl;dr



2.3.8 周期性变量 tl;dr



2.3.9 混合模型

  • ⾼斯分布的线性组合可以给出相当复杂的概率密度形式。通过使⽤⾜够多的⾼斯分布,并且调节它们的均值和⽅差以及线性组合的系数,⼏乎所有的连续概率密度都能够以任意的精度近似。
    • 注意,这里说的是近似任意的概率密度




指数族分布

形式

不是一个分布 是一类分布的统称

在这里插入图片描述


以指数族分布形式的角度看之前的分布

二项分布

在这里插入图片描述



多项分布

第一版本:

在这里插入图片描述

第二版本:

在这里插入图片描述
在这里插入图片描述



高斯分布 tl;dr

在这里插入图片描述



最大似然与充分统计量

MLE求参数η

在这里插入图片描述
Σ ϕ ( x ) \Sigma\phi(x) Σϕ(x)被称为充分统计量 因为有了它就能求得指数分布族模型的参数

ϕ ( ) \phi() ϕ()是特征映射 将属性映射到特征 ( 属性是x 特征是 [ x , x 2 ] T [ x , x^2 ]^T [x,x2]T)

有了这个参数就可以得到整个模型的特征 ↓


对于u(x)的理解 & 充分统计量的妙用

u(x)是一个向量

在这里插入图片描述

以高斯分布为例:

在这里插入图片描述

在这里插入图片描述

  • 要求E(x)只要对η1求偏导即可



指数分布族的共轭先验的通式

无信息先验 tl;dr

大概就是有两种能保证在数据很大的情况下,先验信息对后验没有影响

  • 对于离散的情况 先验给均值就相当于没有给

  • 对于连续的情况,就给个常数,但是要选择比较合适的函数形式 ( 原因看书 没有细究 ) – 有两种形式的先验可以实现上述要求 ( 一种具有平移不变性,一种具有伸缩不变性 )

  • 这样一来先验的意义何在?不如干脆不要给先验
    哈哈哈说对了,个人的理解是:其实给均值/常数 实际上就相当于没有给2333 …



非参数化方法

核密度估计

可以看这个视频简单了解一下
视频里讲了KDE和带宽的概念

这个blog讲得很清晰啊

对书的总结笔记 不错


总体思路

在这里插入图片描述

KDE

思路

在这里插入图片描述


缺点

带宽(也就是h 相当于直方图里面的bin的大小 ) 不好选择

在这里插入图片描述

而且不能根据数据的分布自适应

在这里插入图片描述



近邻 tl;dr

核密度估计方法存在的一个问题是 h 对所有核都是固定的。在数据比较集中的区域,较大的 h 值可能造成过度平滑;而在数据比较稀疏的区域,减小 h 值可能会带来更多噪声。最优的选择是 h 随数据空间的位置不同而变化,近邻算法就能实现这一点。
先选取以 x 为中心的一个很小的球面,然后逐渐增大半径直到球面包含了恰好 K 个数据点为止,此时球面所围城的体积即为所求的 V。这种方法称为 K 近邻法。

在这里插入图片描述

这里其实没有参透
上面那个blog中有讲 但是tl;dr





待整理

对于sigmoid函数来说 sigmoid的特殊性质
σ ( − α ) = 1 − σ ( α ) \sigma(-\alpha)=1-\sigma(\alpha) σ(α)=1σ(α)
σ ( α ) = 1 / ( 1 + e − α ) \sigma(\alpha)=1/(1+e^{-\alpha}) σ(α)=1/(1+eα)

question

  • p71 为什么z也是高斯分布
    在这里插入图片描述
    这里给了sequence learning的generalized形式,然而没有卵用我并没有看懂这里 = = 所以这里又把θ代成μ_ML是为了验证高斯分布也是这样的吗= =

这里x和μ都是高斯分布 – 是变量 ,所以z也是个高斯分布!
把θ代成μ_ML确实是为了验证从generalized的情况向下兼容到高斯分布的情况也是这样的

  • 2.3.6 高斯-Wishart分布 和 Gamma分布部分都跳过了 等待挖坟
  • y(x|w)是不是就是y(x;w)啊…

是的

  • 这里其实没有参透 正文部分的那个blog中有讲 但是tl;dr

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值