逻辑斯谛回归与最大熵模型

1. 概述

Logistic回归是统计学中的经典分类方法,最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型,logistic回归模型与最大熵模型都是对数线性模型

本文第一部分主要讲什么是logistic(逻辑斯谛)回归模型,以及模型的参数估计,使用的是极大对数似然估计以及梯度下降法,第二部分介绍什么是最大熵模型,首先介绍最大熵原理, 然后根据最大熵原理推出最大熵模型,在求解最大熵模型时候,要引入拉格朗日对偶性(在下一篇文章中)的讲解,将最大熵模型的学习归结为对偶函数的极大化,随后我们证明得对偶函数的极大化等价于最大熵模型的极大似然估计。那么这样的话逻辑斯谛回归模型和最大熵模型的学习归结为以似然函数为目标的最优化问题。最后提出模型学习的方法:IIS(改进的迭代尺度算法)(还有其他的方法,梯度下降法,牛顿和拟牛顿法)。

2. 逻辑斯谛回归模型

在介绍logistic回归模型之前,首先简单的讲解一下线性回归模型,这样引入逻辑斯谛会比较容易一些。在线性回归模型中,给定的数据集合D = {(x1, y1), (x2, y2),,…(xm,ym)},其中xi为输入的特征,yi为输出,线性回归试图学得一个线性模型以尽可能的准确的预测实值输出标记。即线性回归试图学得:
h(xi)=θTxi h ( x i ) = θ T x i
通过衡量h(x)和y之间的差别来确定w和b。使用的方法是试图让均方误差最小,即:
(w,b)=argminmi=1(h(xi)yi)2 ( w ∗ , b ∗ ) = a r g m i n ∑ i = 1 m ( h ( x i ) − y i ) 2
基于均方误差的最小化求解模型的方法称为“最小二乘法”.

下面正式开始介绍logistic回归,在线性回归的基础上我们考虑二分类问题,也就是说其输出y的取值为0或者是1。而前面提到的线性模型的输出值为实值,于是我们要想办法把线性模型的输出值转化为0/1值,为此我们引入logistic函数:
y=11+exp(z) y = 1 1 + e x p ( − z )
将线性模型的输出作为logistic函数的输入则得到:
y=11+exp(θTx) y = 1 1 + e x p ( − θ T x )
经过变化得到:
lny1y=θTx l n y 1 − y = θ T x

若将y视为x为正例的可能性,则1-y是其为反例的可能性,两者的比值y/(1 - y)称为几率,反应的是x为正例的相对可能性,对几率取对数则得到的对数几率 lny/(1y) l n y / ( 1 − y ) ,由此可以看出(2)式实际上是在使用线性回归模型的预测结果去逼近真实标记的对数几率,因此该模型称为“对数几率模型”(logisticre gression)。或者也可以认为logisticre gression就是被sigmoid函数(形状为S型的模型)归一化后的线性模型

3. 模型参数的估计:极大似然估计

若将y视作p(y = 1 | x),也就是x等于1的概率,则可得:
lnp(y=1|x)p(y=0|x)=wTx+b l n p ( y = 1 | x ) p ( y = 0 | x ) = w T x + b
进一步可得:
p(y=1|x)=exp(θTx)1+exp(θTx),p(y=0|x)=11+exp(θTx) p ( y = 1 | x ) = e x p ( θ T x ) 1 + e x p ( θ T x ) , p ( y = 0 | x ) = 1 1 + e x p ( θ T x )

那么每一个观察到的样本出现的概率为:
p(yi=1|xi)yiP(yi=0|xi)1yi p ( y i = 1 | x i ) i y ⋅ P ( y i = 0 | x i ) 1 − y i

此时可以得到似然函数如下:
N1p(yi=1

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值