线性回归和逻辑回归都是广义线性模型的特例。
1 指数分布族
如果一个分布可以用如下公式表达,那么这个分布就属于指数分布族。
这是《数理统计》课本中的相关定义,大多数利用的定义如下(y不是一个变量,是一个群):
(1)
上述公式与《数理统计》课本中的公式,含义一样,在具体的表示方面可能有细微差别,下面讨论均针对公式1展开。
在上述情况下,当与
确定后,就确定了指数数分布族中的一种分布模型,以
为参数的分布模型。
其实,大多数的概率分布都属于指数分布族:
伯努利分布(Bernoulli):对 0、1 问题进行建模;
二项分布(Multinomial):对 K 个离散结果的事件建模;
泊松分布(Poisson):对计数过程进行建模,比如网站访问量的计数问题,放射性衰变的数目,商店顾客数量等问题;
伽马分布(gamma)与指数分布(exponential):对有间隔的正数进行建模,比如公交车的到站时间问题;
β 分布:对小数建模;
Dirichlet 分布:对概率分布进建模;
Wishart 分布:协方差矩阵的分布;
高斯分布(Gaussian)
2 指数分布簇-广义线性模型-回归分析
广义线性模型是在指数分布簇上做出相关假设得出的,在指数分布簇(1)的基础上,给出三条假设:
从线性回归、Logistic回归(分类算法)分析,广义线性模型是怎么推到和应用到回归【线性回归】和分类【Logistic】问题。
回顾:
线性回归:
然后给出损失函数,对损失函数最值化处理求解,得到w,进而得到最终拟合出的线性回归曲线。
Logistic回归[分类算法]:
其中:
加了一个sigmoid函数,通过sigmoid函数,将最终结果,归到0-1范围内,即最终分类概率,求解w的方法同上。
对于线性回归和逻辑回归实际上都可以看作是一个的问题 ,在参数
固定,给定x情况下,y服从某种概率分布(指数分布簇)。
线性回归推到如下:
对概率作出假设,(1,假设服从正态分布指数分布),假设
(2)
Logistic推导如下:
广义线性模型GLM是通过假设一个概率分布并将其化成指数分布族形式,从而得到不同的模型。
三者之间的关系:广义线性模型可以解释线性回归构建的模型,广义线性模型中的假设是从指数分布簇出发的。
参考文献
[1]https://blog.csdn.net/weixin_37140379/article/details/82289704
[3] https://www.cnblogs.com/zhangyuhang3/p/6873339.html