GLM广义线性回归模型
1.建模目标
预测目标(response variable)即y可以用来表达3种含义(建模用的是分布,观察到的是采样,预测的是期望):
(1)分布:实际关注给定参数和数据时,
(2)观测结果:即label,有时用t区分表示;这是真正观察到的结果,只是一个值
(3) 期望结果:
linear predictor
广义线性回归GLM本质上仍为线性模型,推广的只是响应变量y的分布,模型最终目标是学习linear predictor
GLM的一个强假设是
2.指数型分布族
广义线性回归GLM模型中的响应变量y必须服从某一指数型分布族,比如常见的正态分布,泊松分布,多项式分布,伯努利分布,拉普拉斯分布等
指数型分布族的形式
(1)
(2) u(x)是充分统计量
(3)
正是因为指数型分布族有多种不同的分布,所以GLM大大地拓宽了线性回归的使用范围
从GLM角度看LR:
(1)响应变量:
(2) 线性预测:
(3) 连接函数(link function):
(4) 响应函数(response function):
(5) 预测:
(6) 损失函数:
从下角度理解link function
(1)二元结果:y取值0,1。对应的观测结果就是label
(2)概率: [0,1],对应期望结果,即y的分布均值
(3)odds(几率):
(4)log-odds/logit:
log-odds的取值范围与线性回归取值范围相匹配。link function作用是把指数型分布族的分布均值
sigmoid函数特点
(1)函数取值范围为(0,1),具有概率意义
(2)单调递增函数
(3)可微,求导简单
(4)函数呈S曲线,中间地带敏感,两侧抑制(2个优点:符合神经激活原理;现实中非线性关系时,当自变量很大或很小时对因变量影响较小,但是在中间某个范围内影响较大)
逻辑回归损失函数的2种表达
第一种常规套路,label是0,1
损失函数
其中
第二种套路,label是-1,1
也是GBDT文章中所提及的损失函数,与第一种套路是完全等价的。这种表达有一个好处,
从1出发有
按照y=0,1的取值区分
按照y=-1,+1区分
当y=1时,
当y=-1时,
所以有
从损失函数角度去理解当label是1,-1时候损失函数的形式
首先明确一点,逻辑回归的分类边界依然是线性的,因为逻辑回归实际上是对数几率的线性回归
综合可得
依旧用最大似然估计
这种
直观地看二分类问题,最小化分类器在训练数据上的误差:
由于这个损失函数不可微,难优化。故找到此函数的一个上界可微函数来做优化
取损失函数为
逻辑回归的概率形式为什么长这样?
通过对softmax回归进行推导,因为逻辑回归是softmax的一种特殊情形。
softmax是应用在多项式分布中,比如有多种颜色,红黄蓝绿青蓝紫,不再只有逻辑回归应对的只有2种结果的情形。此时将分布以指数型分布的形式写出来
注意到
通过约束改写得到
此处
所以此处的
上述公式中的分母其实就是M-1 以外的那一个分类的概率
运用广义回归模型的响应函数(response function)
左边边累加得到
右边累加得到
结合有
重新代入 link function 则有
对于特殊的k=M时
最终softmax 的形式
参考
https://blog.csdn.net/Cdd2xd/article/details/75635688blog.csdn.net Logistic Regression理论总结www.cnblogs.com