逻辑回归的简单推导(以二项逻辑回归为例)

6 篇文章 0 订阅
2 篇文章 0 订阅

二项逻辑回归模型

二分类模型,每个分类由条件概率P(Y|X)表示,Y=1,0, X为实数

条件概率分布

P ( Y = 1 ∣ x ) = e x p ( w . x ) 1 + e x p ( w . x ) P(Y=1|x) = \frac {exp(w.x)}{1+exp(w.x)} P(Y=1x)=1+exp(w.x)exp(w.x)

P ( Y = 0 ∣ x ) = 1 1 + e x p ( w . x ) P(Y=0|x) = \frac {1}{1+exp(w.x)} P(Y=0x)=1+exp(w.x)1

其中 输入 x ∈ R n + 1 x \in R^{n+1} xRn+1, 输出 Y ∈ 0 , 1 Y\in{0,1} Y0,1 w ∈ R n + 1 w \in R^{n+1} wRn+1为权值向量, w . x w.x w.x为两者内积

逻辑回归会将条件概率最大的一类作为x的归类

对数几率 log odds

几率 (odds) : 事 情 发 生 概 率 事 情 不 发 生 概 率 = p 1 − p \frac {事情发生概率}{事情不发生概率} = \frac {p}{1-p} =1pp

对数几率: l o g i t ( p ) = l o g p 1 − p logit(p) = log \frac{p}{1-p} logit(p)=log1pp

对于逻辑回归模型, 引入条件概率则有:

l o g i t ( p ) = log ⁡ P ( Y = 1 ∣ x ) P ( Y = 0 ∣ X ) = log ⁡ P ( Y = 1 ∣ x ) − log ⁡ P ( Y = 0 ∣ x ) = log ⁡ e x p ( w . x ) − log ⁡ ( 1 + e x p ( w . x ) ) − ( log ⁡ 1 − log ⁡ ( 1 + e x p ( w . x ) ) ) = log ⁡ e x p ( w . x ) = w . x logit(p) = \log \frac{P(Y=1|x)}{P(Y=0|X)}\\=\log P(Y=1|x) - \log P(Y=0|x)\\=\log exp(w.x) - \log (1+exp(w.x)) - (\log 1 - \log (1+exp(w.x))) \\= \log exp(w.x) \\ = w.x logit(p)=logP(Y=0X)P(Y=1x)=logP(Y=1x)logP(Y=0x)=logexp(w.x)log(1+exp(w.x))(log1log(1+exp(w.x)))=logexp(w.x)=w.x

即 逻辑回归中,对数几率其实就是输入x的线性表示。

模型的参数估计

给定训练集 T = [ ( x 1 , y 1 ) , ( x 2 , y 2 ) . . . . . . ] T = [(x_1,y_1), (x_2,y_2)......] T=[(x1,y1),(x2,y2)......],运用极大似然估计法估计模型参数 w w w,从而得到逻辑回归模型

P ( Y = 1 ∣ x ) = π ( x ) P(Y=1|x) = \pi(x) P(Y=1x)=π(x), P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=0|x) = 1-\pi(x) P(Y=0x)=1π(x)

似然函数:

L ( w ) = ∏ i = 1 n P ( Y ∣ x i ; w ) = ∏ i = 1 n [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i L(w) = \prod ^n _{i=1} P(Y|x_i;w)= \prod ^n _{i=1}[\pi(x_i)]^{y_i} [1-\pi(x_i)]^{1-y_i} L(w)=i=1nP(Yxi;w)=i=1n[π(xi)]yi[1π(xi)]1yi

对数似然函数:

L ( w ) = log ⁡ ∏ i = 1 n [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i L(w) = \log \prod ^n _{i=1}[\pi(x_i)]^{y_i} [1-\pi(x_i)]^{1-y_i} L(w)=logi=1n[π(xi)]yi[1π(xi)]1yi

= ∑ i = 1 n y i log ⁡ π ( x i ) + ( 1 − y i ) log ⁡ ( 1 − π ( x i ) ) = \sum^n_{i=1} y_i\log \pi(x_i) + (1-y_i)\log (1-\pi(x_i)) =i=1nyilogπ(xi)+(1yi)log(1π(xi))

= ∑ i = 1 n y i log ⁡ π ( x i ) 1 − π ( x i ) + log ⁡ ( 1 − π ( x i ) ) = \sum^n_{i=1} y_i\log \frac {\pi(x_i)}{1-\pi(x_i)} + \log (1-\pi(x_i)) =i=1nyilog1π(xi)π(xi)+log(1π(xi))

= ∑ i = 1 n y i ( w . x i ) − log ⁡ ( 1 + e x p ( w . x i ) ) =\sum_{i=1}^{n} y_i(w.x_i) - \log (1+exp(w.x_i)) =i=1nyi(w.xi)log(1+exp(w.xi))

我们需要最大化对数似然函数,即以对数似然函数为目标函数的最优化问题。我们通常采用拟牛顿法或者梯度下降法来得到参数 w w w的最大似然估计 w ^ \hat w w^

得到最大似然估计 w ^ \hat w w^后,我们就得到了最终的逻辑回归模型

P ( Y = 1 ∣ x ) = e x p ( w ^ . x ) 1 + e x p ( w ^ . x ) P(Y=1|x) = \frac {exp(\hat w.x)}{1+exp(\hat w.x)} P(Y=1x)=1+exp(w^.x)exp(w^.x)

P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ^ . x ) P(Y=0|x) = \frac {1}{1+exp(\hat w.x)} P(Y=0x)=1+exp(w^.x)1

逻辑回归与线性回归比较

异:

逻辑回归是分类模型,线性回归是回归模型。

逻辑回归模型基于最大化因变量y的期望 E ( Y ∣ x ; w ) E(Y|x; w) EYx;w,给定分类结果, 其中y是离散变量

线性回归求得是 y ^ = w . x \hat y = w.x y^=w.x对于真实值 y y y的近似,以此处理回归问题,其中因变量是连续的

同:

建模都使用了最大似然估计。(线性回归的最小二乘法就是假设y服从正态分布,w,x确定下的最大似然估计)

参数估计都可以使用梯度下降法

牛顿法,拟牛顿法, 梯度下降法

更新中

参考资料:
李航 《统计学习方法 第二版》

葫芦娃 《百面机器学习》

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值