极大似然估计
估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。
贝叶斯决策
首先先看贝叶斯公式
p(w)为先验概率,表示了每一种标签类别分布的概率
p(x|w)表示条件概率,表示了在某种类别的前提下,出现某类特征的概率
p(w|x)表示后验概率,表示出现了某些特征,并且此时这个样本属于某一类别的概率,可以根据后验概率的大小,进行分类
极大似然估计
极大似然估计就是为了利用已知的样本结果,反推最有可能导致这种结果的参数值。
原理:极大似然估计提供了一种给定观察数据,来评估模型参数的方法,即:模型已定,参数位置,需要估计参数,通过多次试验,观察结果,利用试验实验结果得到某个参数值能使样本出现的概率最大。
记关于类别c的类条件概率为P(x|c),假设P(x|c)具有确定的形式并且被参数向量θc唯一确定,则我们的任务就是利用训练集D估计参数θc,为了明确起见,将P(x|c)记为P(x|θc)
朴素贝叶斯的前提就是假设样本集中的样本独立分布,可以只考虑一类样本集D,来估计参数θ。
似然函数(linkehood function):联合概率密度函数P(D|θ)称为相对于{x1,x2,…,xn} 的θ的似然函数。
如果是参数空间中能使似然函数
最大的θ值,则
应该是“最可能”的参数值,那么
就是θ的极大似然估计量。它是样本集的函数,记作:
求解极大似然函数
极大似然估计:求使得出现该组样本的概率最大的θ值
由于连乘操作容易造成下溢,通常使用对数似然
未知参数只有一个(θ为标量)似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解:
未知参数有多个(θ为向量)则θ可表示为具有S个分量的未知向量:
记梯度算子:
若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。
方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。
样本服从正态分布,则似然函数为:
它的对数:
求导,得方程组:
联合解得:
EM算法
开始叙述EM之前可以用一个经典的掷硬币的例子来体会EM算法的过程
两枚硬币A和B,假定随机抛掷后正面朝上概率分别为PA,PB。为了估计这两个硬币朝上的概率,咱们轮流抛硬币A和B,每一轮都连续抛5次,总共5轮: