概率密度分布

参数密度估计

大多数实际应用过程中,缺乏概率分布的具体解析式,因此需要通过所观察到的样本进行进行估计,通常分为:

  • 参数估计
  • 非参数估计

参数估计

  • 已知:概率分布的解析表达式
  • 求解:确定表达式中的参数

主要方法

  • 最大似然估计(频率学派)
  • 最大后验概率估计(多个先验,贝叶斯学派)
  • 贝叶斯推理
  • 最大熵模型
  • 混合模型(EM算法)

最大似然估计
算法
    1)把参数当做未知实数(不是变量) ------频率学派
    2)需要解析式,很多时候是困难的。解析式是正态分布时,等同于最小二乘法。
  • 随机样本 x1,x2,...,xN 来自概率分布 p(x;θ)
  • 假设样本对立,则联合概率:

    p(X;θ)=p(x1,x2,...,xN;θ)=k=1Np(xk;θ)

  • 最大似然方法(max likelihood)估计使似然函数取最大值(一般来说先取对数,方便计算)

    θ¯ML=argmaxθk=1Kp(xk;θ)

  • 导数为零,进行求解。(或者其他有效的最优化技术,如梯度下降算法等)。

Kk=1p(xk;θ)θ=0

     多数的方程会不可导,可以查阅相关资料进行最优化
具体细节

一般去对数似然函数,大多数也是这么做的,求解方便(如高斯公式取对数)

L(θ)=lnk=1Np(xk;θ)

L(θ)θ=k=1Nlnp(xk;θ)θ=k=1N1p(xk;θ)p(xk;θ)θ=0

我们可以看出,原来需要对整个连乘公式求偏导,现在需要为每个概率公式求偏导,然后累加。许多公式本身求偏导是有很多良好性质(logister等),计算很简便。


性质
  • 渐进无偏估计(无偏性,根据定义证明即可)
  • 渐进一致的
  • 渐进高效的,最小方差值
参数估计的质量

我们假设有一个理想的模型(我们的目标,也是模式识别的基础),但是目前手里只有一些抽样出来的样本。我们可以认为,学习出来的模型是基于少量样本的,但是我们追求的是适用于所有样本的模型。

当前模型估计的越复杂,那么在该数据集上(目前训练集上)准确性越好,那么模型的鲁棒性(在所有样本上)就会有所下降
当前模型估计的越简单,那么在该数据集上准确性就有所下降,但是模型的鲁棒性会相对上升。

我们不知道目前数据集的可靠性,做的太好(过分推理,过拟合),在测试集上就不一定表现的很好。做的太差(欠拟合,从训练样本中,学习了很少),在测试集上表现平平。这边说的做的太好,做的太差,当然是相对于训练集的。
因此,到底要做怎么样的平衡,通常就是借助验证集来评判。

  • 偏差:真实值与估计值的距离(训练集上的表现
  • 方差:对于不同数据集,参数估计值的变化

对于高斯分布而言,我们很容易证明:

  1. 均值估计是无偏的
  2. 方差估计是有偏的(样本很大的时候,偏差消失。因为,当样本很大,先验作用开始不明显,也就是频率学认为先验来自于样本。或者可以从贝叶斯公式也能看出。)

最大后验概率估计
算法
  • 最大后验概率认为 θ 随机变量。而不是一个未知参数。(两派之争)
  • 后验概率:

    p(θ|X),X=x1,x2,...,xN

  • 根据贝叶斯定理求出后验概率,然后最大化后验概率(MAP)

    p(θ|X)=p(X|θ)p(θ)p(X)

  • 导数为零,进行求解。(或者其他有效的最优化技术)。
    p(θ|X)θ=0p(X|θ)p(θ)θ=0
讨论
  • 主要差别在于先验(当先验相同时,或者差别不大时,其差别很小)

贝叶斯推理
算法
  • 已知 N 个样本集合X和先验概率 P(θ) ,计算条件概率密度函数 p(x|X)

p(x|X)=p(x|θ)p(θ|X)dθ

其中

p(θ|X)=p(X|θ)p(θ)p(X)=p(X|θ)p(θ)p(X|θ)p(θ)dθ

p(X|θ)=k=1Np(xk|θ)

最大熵
    熵是系统不确定性的度量

定义:

H=xp(x)lnp(x)dx

在具体应用是,只需要看看概率密度函数需要满足那些条件即可。

若均值和方差作为其它约束,对于,概率密度函数的最大熵估计为高斯分布


混合模型

线性组合表示 p(x)

p(x)=j=1Jp(x|j)Pj

其中需要满足一些概率性质(和为1)

j=1JPj=1,xp(x|j)dx=1

选取合适,可以近似任何连续的密度函数


准备工作
  1. 选取相关密度组成函数 p(x|j) ,也就是 p(x|j;θ)
  2. 根据观察样本,求解相关参数 θ,Pj
方法

最大化似然函数

kp(xk;θ,P1,P2,...,PJ)

难以求解最大值,本质上缺少标签信息,无监督的问题。EM算法可以求解此类问题。


EM算法
  1. 有监督学习问题中,概率密度函数为 py(y;θ)
  2. 那么在无监督中,
    px(x;θ)=Y(x)py(y;θ)dy
  3. 最大似然估计

    klnpy(yk;θ)θ=0

  4. EM 在观察样本和 θ 当前估计的条件下最大化似然函数的期望

  5. 算法流程
    1)计算期望

    Q(θ;theta(t))=E[kln(py(yk;θ|X;;θ(t)))]

    2)最大化
    Q(θ;θ(t))θ=0

        似然函数一直在不断增大,直至收敛
    

    讨论
    1. 假设有标签
      p(xkjk;θ)=p(xk|jk;θ)Pjk
    2. 似然
      L(θ)=k=1Nln(p(xk|jk;θ)Pjk)

上课笔记

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值