softmax分类器_逻辑回归与softmax关系

GLM广义线性回归模型

1.建模目标

预测目标(response variable)即y可以用来表达3种含义(建模用的是分布,观察到的是采样,预测的是期望)

(1)分布:实际关注给定参数和数据时,

服从的分布。Linear Regression 的y服从高斯分布,具体取值是实数,但这里我们关注的是分布

(2)观测结果:即label,有时用t区分表示;这是真正观察到的结果,只是一个值

(3) 期望结果:

表示模型的预测,注意y实际服从一个分部,但是预测结果是整个分布的均值
,只是一个数值

linear predictor

广义线性回归GLM本质上仍为线性模型,推广的只是响应变量y的分布,模型最终目标是学习linear predictor

中的权重向量

GLM的一个强假设是

,即y相关的指数型分布族的自然参数
等于linear predictor。这个假设倾向于design choice。这种假设具有合理性,至少
与linear predictor的取值范围是一致的。

2.指数型分布族

广义线性回归GLM模型中的响应变量y必须服从某一指数型分布族,比如常见的正态分布,泊松分布,多项式分布,伯努利分布,拉普拉斯分布等

指数型分布族的形式

(1)

是自然参数,决定分布的具体参数。例如正态分布中的

(2) u(x)是充分统计量

(3)

是归一化系数,保证概率密度函数积分后为1

正是因为指数型分布族有多种不同的分布,所以GLM大大地拓宽了线性回归的使用范围

从GLM角度看LR

(1)响应变量:

(2) 线性预测:

(3) 连接函数(link function):

(4) 响应函数(response function):

,称为logistic或者 sigmoid

(5) 预测:

(6) 损失函数:

从下角度理解link function

(1)二元结果:y取值0,1。对应的观测结果就是label

(2)概率: [0,1],对应期望结果,即y的分布均值

(3)odds(几率):

,概率和几率可互相转换
,
。在 信用卡评分模型中,主要利用Odds来计算不同变量的不同取值时的信用得分

(4)log-odds/logit:

,即

log-odds的取值范围与线性回归取值范围相匹配。link function作用是把指数型分布族的分布均值

映射到线性尺度上

sigmoid函数特点

(1)函数取值范围为(0,1),具有概率意义

(2)单调递增函数

(3)可微,求导简单

(4)函数呈S曲线,中间地带敏感,两侧抑制(2个优点:符合神经激活原理;现实中非线性关系时,当自变量很大或很小时对因变量影响较小,但是在中间某个范围内影响较大)

逻辑回归损失函数的2种表达

第一种常规套路,label是0,1

损失函数

其中

第二种套路,label是-1,1

也是GBDT文章中所提及的损失函数,与第一种套路是完全等价的。这种表达有一个好处,

是 linear predictor,上小节有
,但是这里更 general,可以用其他方式定义来定义这个 linear predictor,例如 GBDT 中的函数加和

从1出发有

按照y=0,1的取值区分

按照y=-1,+1区分

当y=1时,

当y=-1时,

所以有

从损失函数角度去理解当label是1,-1时候损失函数的形式

首先明确一点,逻辑回归的分类边界依然是线性的,因为逻辑回归实际上是对数几率的线性回归

综合可得

依旧用最大似然估计

这种

的损失函数叫做对数损失函数(log loss)。

直观地看二分类问题,最小化分类器在训练数据上的误差:

由于这个损失函数不可微,难优化。故找到此函数的一个上界可微函数来做优化

取损失函数为

易于优化

fe06c68c9c0c37fcced5343f969a54f9.png
不同的损失函数

逻辑回归的概率形式为什么长这样?

通过对softmax回归进行推导,因为逻辑回归是softmax的一种特殊情形。

softmax是应用在多项式分布中,比如有多种颜色,红黄蓝绿青蓝紫,不再只有逻辑回归应对的只有2种结果的情形。此时将分布以指数型分布的形式写出来

注意到

,通常只要确认M-1个
,剩下的
的值就确定了

通过约束改写得到

1d0ef45ca6ffe1c6cc121e2ef15ff651.png

此处

(i=1,2,……,M)取值为0或者1,当出现第k种情况时,

所以此处的

上述公式中的分母其实就是M-1 以外的那一个分类的概率

,所以其实也有点 odds 的意思;这里可以理解为我们随意选择了一个分类作为base,然后用其他分类出现的概率对其求对数比例,把可能性的取值范围扩展到了 (−∞,+∞)。作为被选择作base的分类,其

运用广义回归模型的响应函数(response function)

左边边累加得到

e4e622ef25cec9002312d6293eb73611.png

右边累加得到

c77bb408dcae3d2b2d3079c5b3870035.png

结合有

9b1df066cee3601edf99001029c69076.png

重新代入 link function 则有

9258b7290054a4d41151e7fd6be21619.png

对于特殊的k=M时

05e1578098fa2fa518eac12b6771b5e7.png

最终softmax 的形式

93e8e3d71b9d1d0d0aeffbd8c418025e.png

参考

https://blog.csdn.net/Cdd2xd/article/details/75635688​blog.csdn.net Logistic Regression理论总结​www.cnblogs.com
ea282c45f218ca3e500f7d893d4a4641.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值