logistic模型_指数族分布、广义线性模型、线性回归、logistic回归

最新推荐文章于 2023-01-18 13:06:28 发布

weixin_39744230

最新推荐文章于 2023-01-18 13:06:28 发布

阅读量459

点赞数

文章标签： logistic模型

1. 线性模型

- 1.1. 指数族分布
  - 1.1.1. 伯努利分布

- 1.2. 线性回归与广义线性模型
  - 1.2.1. 线性回归
  - 1.2.2. 广义线性模型
  - 1.2.3. logistic回归(对数几率回归)
  - 1.2.4. 线性判别分析 (LDA)
- 1.3. 多分类学习
- 1.4. 类别不平衡问题

1. 线性模型

1.1. 指数族分布

指数族分布指一类分布，其概率密度函数都可以写成如下形式：

其中：

为自然参数。对于线性回归和logistic回归，

是一个实数，且假设

; 对于softmax回归，

是一个向量，且假设
T(y)是充分统计量，对于线性回归和logistic回归，有T(y)=y；对于k个类的softmax回归，
是一个对数配分函数，

在式子中起到归一化的作用，保证概率密度函数在随机变量y上的积分为1，一旦T、a、b确定，就可以确定一种分布，

为参数。

1.1.1. 伯努利分布

伯努利分布

的分布列为：

由此可得

1.2. 线性回归与广义线性模型

给定d个属性

，线性模型试图学得一个通过属性的线性组合来进行预测的函数，即

一般用向量形式写成

其中

。w和b学得之后，模型就得以确定。

1.2.1. 线性回归

给定数据集

其中

。线性回归试图学的一个线性模型以尽可能准确地预测实值输出标记。

对于离散属性：如果输入的属性间存在"序"的关系，可通过连续化将其转换为连续值(labelencoder) 如果不存在序的关系，使用one-hot encoder转化

线性回归试图学得

那么，如何确定参数w和b呢？显然，关键在于衡量f(x)和y之间的差别。均方误差是回归任务中最常用的性能度量，因此可试图让均方误差最小化，即

均方误差对应了欧氏距离。基于均方误差最小化来进行模型求解的方法称为 最小二乘法 。在线性回归中，最小二乘法试图找到一条直线，使所有样本到直线上的欧式距离之和最小。

求解w和b使得

最小化的过程，称为线性回归模型的最小二乘“参数估计”。 将

分别对w和b求导，令求导后的公式为0，可求解得到w和b的参数值。

如果数据集中的属性有d个，此时试图学得

这称为“多元线性回归”。

类似的，可利用最小二乘法对w和b进行估计。为了方便把w和b吸收入向量的形式

，相应的数据集D的向量形式最后加一列全为1的列。

再把标记也写成向量形式

，则类似与一个属性时的形式有：

令

，对

求导得到

令上式为0可得

的闭式解。

若

为满秩矩阵或正定矩阵，可以得到解

则最终得到多元线性回归模型：

大多数情况下，

不是满秩矩阵，

此时可解出多个

，选择哪个解将由学习算法的归纳偏好决定，常见的做法是引入正则化项。

1.2.2. 广义线性模型

线性回归可以看做希望线性模型的预测值逼近真实标记y。如果我们将输出标记的对数作为线性模型逼近的目标，则得到“对数线性模型”：

它实际上是试图让

逼近y。

更一般地，考虑单调可微函数g(·)，令

这样得到的模型称为广义线性模型，其中，函数g(·)称为联系函数(link function)。

对于给定x下y的条件分布，作如下三个假设：

，即当给定x和w时，随机变量y的分布服从某个指数族分布
已知一个x，我们的目标是预测给定x下T(y)的条件期望，即
自然参数
是输入x的线性函数，即

，或者当

是一个向量时，

1.2.3. logistic回归(对数几率回归)

对于二分类任务，其输出标记

，而线性回归模型产生的预测值是实值，所以需要将实值转换到0/1值。最理想的是使用

单位阶跃函数。

但是，单位阶跃函数不连续，因此不能用作广义线性模型中的联系函数。因此使用单调可微并且近似单位阶跃函数的对数几率函数作为替代：

对数几率函数是一种"sigmoid函数"。

另一方面，从指数族分布和广义线性模型出发，而分类属于伯努利分布，将伯努利分布转换成指数族分布形式，

又因为广义线性模型的第三个假设：

带入可得logistic回归的形式，这也是为什么使用sigmoid函数的原因之一。

将对数几率函数作为

带入广义线性模型公式：

可转化为：

若将y视为样本x作为正例的可能性，则1-y是其反例可能性，两者的比值

称为几率，反映了x作为正例的相对可能性，对几率取对数则得到对数几率。

实际上，是在用线性回归模型的预测结果去逼近真实标记的对数几率。优点： - 直接对分类可能性进行建模，无需事先假设数据分布，避免了假设分布不准确带来的问题 - 不是仅预测出类别，而是可得到近似概率预测，这对许多利用概率辅助决策的任务很有用 - 对率函数是任意阶可导的凸函数，可使用现有的很多数值优化算法直接求最优解

如何确定logistic回归中的w和b？

将y视为类后验概率估计，则有：

显然有

于是，可通过“极大似然法”来估计w和b。 给定数据集

，对率回归模型最大化"对数似然"：

令

。再令

，则上式中的似然项可重写为

可得到上上式的最大化，等于下式的最小化：

是高阶连续可导的凸函数，可使用经典的数值优化算法求解。

1.2.4. 线性判别分析 (LDA)

1.3. 多分类学习

多分类问题的一般思路：使用“拆解法”将多个分类任务拆为若干个二分类任务求解。具体来说，先对问题进行拆分，然后为拆出的每个二分类任务训练一个分类器。测试时，对这些分类器的预测结果进行集成以获得最终的多分类结果。

最经典的拆分策略有三种：一对一、一对其余、多对多

一对一：将所有类别两两匹配，产生若干个分类器。最终结果通过投票产生。即把被预测的最多的类别作为最终分类模型。
一对其余：每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器。测试时若仅有一个分类器预测为正类，则对应的类别标记为最终分类结果。若有多个分类器预测为正类，则通常考虑各分类器的预测置信度，选择置信度最大的类别标记作为分类结果。
多对多：每次将若干个类作为正例，若干个其他类作为反例。常用的多对多技术：“纠错输出码”。

1.4. 类别不平衡问题

指分类任务中不同类别的训练样例数目差别很大的情况。 logistic回归中的几率

反映了正例可能性与反例可能性的比值。进行分类时阈值设为0.5表明分类器认为真实正、反例可能性相同。

然而，当正反例数目不同时，令

表示正例数目，

表示反例数目，则观测几率是

。

由于我们通常假设训练集是真实样本总体的无偏采样，因此观测几率就代表了真实几率。于是，只要分类器的预测几率高于观测几率就应判定为正例，即

因此，需要对预测值进行调整，令

这就是类别不平衡学习的一个基本策略---再缩放。

由于训练集是真实样本总体的无偏采样的假设往往并不成立，所以无法基于训练集的观测几率来推出真实几率。 现有的技术大体有三种做法 - 欠采样利用集成学习机制，将反例划分为若干个集合供不同学习器使用，这样对每个学习器来看都进行了欠采样，但在全局来看不会丢失重要信息。 - 过采样过采样不能简单的对初始正例样本进行重复采样，否则会导致严重的过拟合。过采样的代表性算法SMOTE通过对训练集里的正例进行插值来产生额外的正例。 - 阈值移动在用训练好的分类器进行预测时，将再缩放公式嵌入到其决策过程中。

weixin_39744230

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
logistic模型_指数族分布、广义线性模型、线性回归、logistic回归

1. 线性模型1.1. 指数族分布1.1.1. 伯努利分布1.2. 线性回归与广义线性模型1.2.1. 线性回归1.2.2. 广义线性模型1.2.3. logistic回归(对数几率回归)1.2.4. 线性判别分析 (LDA)1.3. 多分类学习1.4. 类别不平衡问题1. 线性模型1.1. 指数族分布指数族分布指一类分布，其概率密度函数都可以写成如下形式：其中：为自然参数。对于线性回归和...
复制链接

扫一扫