关于二项逻辑斯谛回归的探讨

本文深入探讨了二项逻辑斯谛回归,首先介绍了指数家族的概念,阐述了它作为最少约束条件下的最大熵模型的重要性。接着详细解释了如何将二分类问题的Bernoulli分布转换为指数家族形式,从而形成逻辑斯谛回归模型,强调了对数几率和sigmoid函数在模型中的作用。此外,文章还提及多项逻辑斯谛回归与softmax回归的等价性。
摘要由CSDN通过智能技术生成

关于二项逻辑斯谛回归的探讨,本文主要参考 MLaPP 第9章

1. 指数家族

在介绍逻辑斯谛回归模型之前,我们要先介绍一下指数家族。为什么要介绍指数家族呢? 在 MLaPP 9.2.6 中证明了,指数家族是最少约束条件下的最大熵模型。这个最少约束条件是只需要知道特征函数的期望值。然后使用熵的定义和拉格朗日方法来定义并求解这种带约束的优化问题。(证明思路:优化问题是概率分布的熵最大化,约束条件是概率为非负实数且概率之和为1. 然后用拉格朗日方法写出表达式,让表达式对概率分布求导并令导数为0,得到约束条件下熵最大的概率分布。)

最少约束条件下的最大熵模型,意味着指数家族是普适的最好模型。因此在逻辑斯谛回归问题中:

  • 我们先根据问题的类型(二分类 / 多分类)写出概率分布模型(Bernoulli / Multinoulli Distribution)。

  • 然后通过变量替换的方法,把概率分布模型变换成指数家族的形式。

  • 最后我们就得到了在《统计学习方法》或《机器学习》中看到的逻辑斯谛回归模型,以及附加在上面的各种解释。但从本质上来说,逻辑斯谛回归模型是指数家族模型,是普适的最好模型

指数家族(exponential family)的概率分布函数 p(x|θ) 具有如下形式:

p(x|θ)=1Z(θ)exp[θTϕ(x)]
这里的 θ 被称为自然参数(natural parameters)。令 θ=wTx ,得到的模型称为广义线性模型。

2. 二项逻辑斯谛回归

对于一个二分类问题,我们首先假设其输出 y 服从均值参数(mean parameter)为 μ 的 Bernoulli 分布,即:

Ber(y|μ)=μy(1μ)1y=(1μ)exp[ylog(μ1μ)]
这里 μ 是给定输入 x ,输出 y 取正类的概率。因此,如果能够把 μ 表示成关于输入 x 的函数,那么我们就可以得到二项逻辑斯谛回归模型。而要得到这种函数表示,最明智的选择是通过变量替换的方法将概率分布变换成指数家族的形式。

Z(θ)=1/(1μ) θ=log(μ1μ) ϕ(x)=x ,从而得到指数家族的形式。在《统计机器学习》和《机器学习》中,将 log(μ1μ) 定义成对数几率,并假设输出 y=1 的对数几率是输入 x 的线性函数,从而得到二项逻辑斯谛回归模型。 为什么要选择对数几率 / sigm 函数,其来源应该是这样吧!

θ=wTx ,得到二项逻辑斯谛回归模型(广义线性模型)如下:

μ=p(y=1|x)=11+exp(wTx)=sigm(wTx)

MLaPP 9.2.2.2 使用同样的套路介绍了多项逻辑斯谛回归,这里不再赘述(其实是多项逻辑斯谛回归的公式写起来有点复杂)。这里还证明了,多项逻辑斯谛回归模型(multinomial logistic regression)和 softmax regression 是等价的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值