softmax分类器_逻辑回归与softmax关系

最新推荐文章于 2022-06-26 19:53:33 发布

weixin_39974958

最新推荐文章于 2022-06-26 19:53:33 发布

阅读量236

点赞数

文章标签： softmax分类器

GLM广义线性回归模型

1.建模目标

预测目标（response variable）即y可以用来表达3种含义（建模用的是分布，观察到的是采样，预测的是期望）：

（1）分布：实际关注给定参数和数据时，

服从的分布。Linear Regression 的y服从高斯分布，具体取值是实数，但这里我们关注的是分布

（2）观测结果：即label,有时用t区分表示；这是真正观察到的结果，只是一个值

(3) 期望结果：

表示模型的预测，注意y实际服从一个分部，但是预测结果是整个分布的均值

，只是一个数值

linear predictor

广义线性回归GLM本质上仍为线性模型，推广的只是响应变量y的分布，模型最终目标是学习linear predictor

中的权重向量

GLM的一个强假设是

,即y相关的指数型分布族的自然参数

等于linear predictor。这个假设倾向于design choice。这种假设具有合理性，至少

与linear predictor的取值范围是一致的。

2.指数型分布族

广义线性回归GLM模型中的响应变量y必须服从某一指数型分布族，比如常见的正态分布，泊松分布，多项式分布，伯努利分布，拉普拉斯分布等

指数型分布族的形式

（1）

是自然参数，决定分布的具体参数。例如正态分布中的

和

(2) u(x)是充分统计量

（3）

是归一化系数，保证概率密度函数积分后为1

正是因为指数型分布族有多种不同的分布，所以GLM大大地拓宽了线性回归的使用范围

从GLM角度看LR：

（1）响应变量：

(2) 线性预测：

(3) 连接函数（link function）：

(4) 响应函数（response function）：

，称为logistic或者 sigmoid

(5) 预测：

(6) 损失函数：

从下角度理解link function

（1）二元结果：y取值0,1。对应的观测结果就是label

（2）概率: [0,1]，对应期望结果，即y的分布均值

（3）odds（几率）:

,概率和几率可互相转换

,

。在信用卡评分模型中，主要利用Odds来计算不同变量的不同取值时的信用得分

（4）log-odds/logit:

,即

log-odds的取值范围与线性回归取值范围相匹配。link function作用是把指数型分布族的分布均值

映射到线性尺度上

sigmoid函数特点

（1）函数取值范围为（0,1）,具有概率意义

（2）单调递增函数

（3）可微，求导简单

（4）函数呈S曲线，中间地带敏感，两侧抑制（2个优点：符合神经激活原理；现实中非线性关系时，当自变量很大或很小时对因变量影响较小，但是在中间某个范围内影响较大）

逻辑回归损失函数的2种表达

第一种常规套路，label是0,1

损失函数

其中

第二种套路，label是-1,1

也是GBDT文章中所提及的损失函数，与第一种套路是完全等价的。这种表达有一个好处，

是 linear predictor，上小节有

，但是这里更 general，可以用其他方式定义来定义这个 linear predictor，例如 GBDT 中的函数加和

从1出发有

按照y=0,1的取值区分

按照y=-1，+1区分

当y=1时，

当y=-1时，

所以有

从损失函数角度去理解当label是1,-1时候损失函数的形式

首先明确一点，逻辑回归的分类边界依然是线性的，因为逻辑回归实际上是对数几率的线性回归

综合可得

依旧用最大似然估计

这种

的损失函数叫做对数损失函数（log loss）。

直观地看二分类问题，最小化分类器在训练数据上的误差：

由于这个损失函数不可微，难优化。故找到此函数的一个上界可微函数来做优化

取损失函数为

易于优化

不同的损失函数

逻辑回归的概率形式为什么长这样？

通过对softmax回归进行推导，因为逻辑回归是softmax的一种特殊情形。

softmax是应用在多项式分布中，比如有多种颜色，红黄蓝绿青蓝紫，不再只有逻辑回归应对的只有2种结果的情形。此时将分布以指数型分布的形式写出来

注意到

，通常只要确认M-1个

,剩下的

的值就确定了

通过约束改写得到

此处

(i=1,2,……,M)取值为0或者1，当出现第k种情况时，

所以此处的

上述公式中的分母其实就是M-1 以外的那一个分类的概率

，所以其实也有点 odds 的意思；这里可以理解为我们随意选择了一个分类作为base，然后用其他分类出现的概率对其求对数比例，把可能性的取值范围扩展到了 (−∞,+∞)。作为被选择作base的分类，其

运用广义回归模型的响应函数（response function）

左边边累加得到

右边累加得到

结合有

重新代入 link function 则有

对于特殊的k=M时

最终softmax 的形式

参考

https://blog.csdn.net/Cdd2xd/article/details/75635688blog.csdn.net Logistic Regression理论总结www.cnblogs.com

weixin_39974958

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。