【无标题】

6.2 最大熵模型
目录
6.2 最大熵模型
6.2.1 最大熵原理
6.2.2 最大熵模型的定义
拉格朗日对偶性
6.2.3 最大熵模型的学习问题
6.2.4最大熵模型的极大似然估计
6.3 模型学习的最优化算法
最速梯度下降法
6.3.1 改进迭代尺度法( Improved Iterative Scaling Algorithm)简称IIS算法
牛顿法
6.3.2 拟牛顿法
拟牛顿法的合理性
DFP算法
BFGS算法
Broyden算法:
最大熵模型指的就是包含信息最多的条件概率分布;
问:为什么求的是条件概率分布?
答: 最大熵模型实际上是判别方法,判别方法就是要得出条件概率分布;
最大熵模型的作用,计算出熵最大的条件概率分布,依据条件概率分布对输入的x进行分类;
最大熵模型获得的是所有满足约束条件的模型中信息熵极大的模型;
约束条件影响模型的拟合和预测能力,且因为其于样本数量相关,模型计算量大,难以实际应用;

6.2.1 最大熵原理
熵的计算式:

随机变量为离散用求和,随机变量为连续就用积分;

熵表示了随机变量的不确定性,同时表现其复杂性;
最大熵模型指的就是包含最多信息的条件概率分布;

如何找到到熵最大对应的条件概率分布?
取熵最大时的概率即可;

对H(P)求导,令一阶导为0;
这时函数取最大值,计算概率p,这个p所对应的熵,即为最大熵;

如果有限制条件(约束条件),就使用拉格朗日乘子法,引入拉格朗日乘子;
对p求偏导,让偏导为0得一式,与约束条件联立得p;
将p带入H(p),得最大熵模型;

//默认计算熵(离散形式)的时候对数取2为底,单位为比特(bit);

//默认计算熵(连续形式)的时候对数取e为底,单位为比特(nat);

例子:正态分布就是附加三个约束条件(常规,均值,方差)的最大熵原理得出的;

6.2.2 最大熵模型的定义

C是满足所有约束条件的集合;
前P是指满足约束条件的概率;
后P代表了所有的概率分布;
特征函数f(i):
{f(x,y)} x和y满足事实即为1,否者为0;
期望的作用:
使得经验分布等价于理论分布,即经验分布的期望等于理论分布的期望;如下;

条件熵的概念:

条件    不同条件对应的类别
输入变量x    输出变量y
条件熵公式推导:

最大熵模型得应用:
对于输入x,我们会选概率大的那个类别作为输出变量
问:如果概率最大得类有两个及以上?
答:正则化,导入正则项将经验风险最小化问题转化为结构风险最小化,再次估量;

拉格朗日对偶性
方法的实质:
将有约束的最优化不等式原始问题->
用拉格朗日乘子法转化为无约束等式原始问题->
对偶问题;


添加拉格朗日乘子,转化为无约束原始问题


易得:

当满足KKT条件时等号成立:

仿射函数的定义
最高次数为一的多项式函数:y=Ax+b(一般形式)

6.2.3 最大熵模型的学习问题
1.最大熵模型学习的思路
已知信息:训练数据集,特征函数(约束);
学习的目的:利用最大熵模型找到最大条件熵的概率分布函数,通过已知x找到y的类别;
实现方法:
添加负号将最大熵转变为最小值形式;
根据概率分布的概率和为一,和特征函数确定两个约束条件;
这样就最大熵模型转化为了求解约束最小化问题;
应用拉格朗日乘子法得到如下包含n+1维参数的式子:

易证,f(x)是上凸函数。两个约束条件的简化是仿射函数;
现在我们可以用对偶问题解决其原始问题;
先对最大熵函数求偏导得极小值,固定此时的p;
1

2.规范化因子


3

1.2.3联立
得到关于参数w的函数,取w*使得函数取得最大值;


用w *求出条件概率分布;


6.2.4最大熵模型的极大似然估计
最大似然估计:
简单来说就是找出产生结果的最可能条件;

最大熵模型应用极大似然估计就是为了找到最大可能性的最大条件概率分布;

经计算:对数似然函数(已除去数据集样本总数N)等价于对偶函数;
//样本点默认相互独立


自此问题转移到求w;

6.3 模型学习的最优化算法
最速梯度下降法
梯度下降法是通过一阶泰勒展开得来的;

精炼俱到的最大熵模型之最速梯度下降法

6.3.1 改进迭代尺度法( Improved Iterative Scaling Algorithm)简称IIS算法
找到一个δ,使得w+δ对应的似然函数值大于上一轮:


引入下式(去对数)

得:

展开规划化因子:

将其分子分为两项:

第一项除以分母得

联立得:已知参数ω,关于δ的函数;

只要找到合适的δ使函数大于0,即可迭代到下一个值;

求A(δ|ω)的最小值:
如果直接对函数A(δ|ω)求偏导等于0,得第三项指数部分任存在δi的n项累乘,不易求单独一个δi的值;
引入函数f#(x,y),值为(x,y)满足特征的个数:


f#(x,y)函数性质:


导入jensen不等式(原函数是下凸的情况,指数函数也是下凸函数)

得:

也就是这两步,将指数部分的n个δi移除,之后对δi求偏导,则仅剩唯一的δi;

带入A(δ|ω)的式子得:


令其右端为下式:


得:

B(δ|ω)是对数似然函数改变量一个相对不紧的下届:
对其求偏导:


令偏导为0,得:

对每一δi求解上式方程即,可解得δ;


(3)重复以上步骤,更新参数直至收敛;
(4)将得到ω*带入Pω(y|x)得到最优条件概率分布模型;

牛顿法
牛顿法就是因为牛顿改进了方程求根,而得名;
牛顿法的作用:求解极值;(简单来说就是高中的二导求极值;)
函数可微:函数f(x)在x0点邻域D有定义,且在x0处可导;
费马原理:函数可微,对于任意x属于D,如果f(x0)是极值,那么其导数为0;
自此求极值问题转化为求解导函数0点问题;

//θ放置在一阶导函数图像里更易理解:新的θ为原θ-一阶导函数f(θ)‘值除以二阶导f(θ)’‘;令g(θ)等于一阶导函数f(θ)’,那么,新的θ为原θ-函数g(x)值除以一阶导g(θ)',即函数值除以斜率k,得θ距离,新θ即等于原θ-该θ距离;

扩展到n维就是求偏导:
梯度(一阶导数)直接求偏导;
二阶导数求偏导得海森矩阵:


6.3.2 拟牛顿法
二次型:多项中存在某项为二次项的多项式;

由于牛顿法中的海森矩阵涉及大量二次偏导,计算量大,所有我们想找一个式子代替海森矩阵;
牛顿法的实质是对目标函数f(x)进行二阶泰勒展开;

对x求导:

向量的平方求导:
(由于海森矩阵是对称矩阵,逆与原矩阵相同,值应为2Ax;)


得出替代Gk的满足条件;

拟牛顿法的合理性
应用梯度下降法原理,但还需要一个最优步长;
如下计算得出;

对目标函数f(x)进行一阶泰勒展开(验证其满足梯度下降的合理性)


带入搜素公式,牛顿方向,
牛顿法的搜索公式:

牛顿方向:

得:

假设海森矩阵是正定的,那么它的逆是正定,则其二次型大于0,第二项小于0,上式成立;
证明:初值H(k)是正定的对称矩阵;

DFP算法
求海森矩阵的逆的替代品Gk;

由于海森矩阵是正定且对称的,所有,Gk,Qk,Pk都是对称的

令:

为求Pk构造函数满足条件;
该函数分子为矩阵,分母为数,相除得矩阵;


同理,构造Qk;

最终得迭代式:

BFGS算法
BFGS过程推导同理;不过是由条件二

推导而出:

Broyden算法:

这个Gk记作Gk(BFGS)
BFP算法的GK记作Gk(DFP)
两者线性组合得出一类拟牛顿算法,称为Broyden类 算法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值