logistic模型_指数族分布、广义线性模型、线性回归、logistic回归

0f84afbbdbac3d7e331a5dcf66c1086b.png

1. 线性模型

    • 1.1. 指数族分布
      • 1.1.1. 伯努利分布
    • 1.2. 线性回归与广义线性模型
      • 1.2.1. 线性回归
      • 1.2.2. 广义线性模型
      • 1.2.3. logistic回归(对数几率回归)
      • 1.2.4. 线性判别分析 (LDA)
    • 1.3. 多分类学习
    • 1.4. 类别不平衡问题

1. 线性模型

1.1. 指数族分布

指数族分布指一类分布,其概率密度函数都可以写成如下形式:

其中:

  • 为自然参数。对于线性回归和logistic回归,
    是一个实数,且假设
    ; 对于softmax回归,
    是一个向量,且假设
  • T(y)是充分统计量,对于线性回归和logistic回归,有T(y)=y;对于k个类的softmax回归,
  • 是一个对数配分函数,
    在式子中起到归一化的作用,保证概率密度函数在随机变量y上的积分为1, 一旦T、a、b确定,就可以确定一种分布,
    为参数。

1.1.1. 伯努利分布

伯努利分布

的分布列为:

由此可得

1.2. 线性回归与广义线性模型

给定d个属性

,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即

一般用向量形式写成

其中

。w和b学得之后,模型就得以确定。

1.2.1. 线性回归

给定数据集

其中
。线性回归试图学的一个线性模型以尽可能准确地预测实值输出标记。
对于离散属性:如果输入的属性间存在"序"的关系,可通过连续化将其转换为连续值(labelencoder) 如果不存在序的关系,使用one-hot encoder转化

线性回归试图学得

那么,如何确定参数w和b呢?显然,关键在于衡量f(x)和y之间的差别。均方误差是回归任务中最常用的性能度量,因此可试图让均方误差最小化,即

均方误差对应了欧氏距离。基于均方误差最小化来进行模型求解的方法称为 最小二乘法 。在线性回归中,最小二乘法试图找到一条直线,使所有样本到直线上的欧式距离之和最小。

求解w和b使得

最小化的过程,称为线性回归模型的最小二乘“参数估计”。
分别对w和b求导,令求导后的公式为0,可求解得到w和b的参数值。

如果数据集中的属性有d个,此时试图学得

这称为“多元线性回归”。

类似的,可利用最小二乘法对w和b进行估计。为了方便把w和b吸收入向量的形式

,相应的数据集D的向量形式最后加一列全为1的列。

再把标记也写成向量形式

,则类似与一个属性时的形式有:

,对
求导得到

令上式为0可得

的闭式解。

为满秩矩阵或正定矩阵,可以得到解

则最终得到多元线性回归模型:

大多数情况下,

不是满秩矩阵,
此时可解出多个
,选择哪个解将由学习算法的归纳偏好决定,常见的做法是引入正则化项。

1.2.2. 广义线性模型

线性回归可以看做希望线性模型的预测值逼近真实标记y。 如果我们将输出标记的对数作为线性模型逼近的目标,则得到“对数线性模型”:

它实际上是试图让

逼近y。

更一般地,考虑单调可微函数g(·),令

这样得到的模型称为广义线性模型,其中,函数g(·)称为联系函数(link function)。

对于给定x下y的条件分布,作如下三个假设:

  • ,即当给定x和w时,随机变量y的分布服从某个指数族分布
  • 已知一个x,我们的目标是预测给定x下T(y)的条件期望,即
  • 自然参数
    是输入x的线性函数,即
    ,或者当
    是一个向量时,

1.2.3. logistic回归(对数几率回归)

对于二分类任务,其输出标记

,而线性回归模型产生的预测值是实值,所以需要将实值转换到0/1值。最理想的是使用
单位阶跃函数

但是,单位阶跃函数不连续,因此不能用作广义线性模型中的联系函数。因此使用单调可微并且近似单位阶跃函数的对数几率函数作为替代:

对数几率函数是一种"sigmoid函数"。

另一方面,从指数族分布和广义线性模型出发,而分类属于伯努利分布,将伯努利分布转换成指数族分布形式,

又因为广义线性模型的第三个假设:

带入可得logistic回归的形式,这也是为什么使用sigmoid函数的原因之一。

将对数几率函数作为

带入广义线性模型公式:

可转化为:

若将y视为样本x作为正例的可能性,则1-y是其反例可能性,两者的比值

称为几率,反映了x作为正例的相对可能性,对几率取对数则得到对数几率。

实际上,是在用线性回归模型的预测结果去逼近真实标记的对数几率。 优点: - 直接对分类可能性进行建模,无需事先假设数据分布,避免了假设分布不准确带来的问题 - 不是仅预测出类别,而是可得到近似概率预测,这对许多利用概率辅助决策的任务很有用 - 对率函数是任意阶可导的凸函数,可使用现有的很多数值优化算法直接求最优解

如何确定logistic回归中的w和b?

将y视为类后验概率估计,则有:

显然有

于是,可通过“极大似然法”来估计w和b。 给定数据集

,对率回归模型最大化"对数似然":

。再令
,则上式中的似然项可重写为

可得到上上式的最大化,等于下式的最小化:

是高阶连续可导的凸函数,可使用经典的数值优化算法求解。

1.2.4. 线性判别分析 (LDA)

1.3. 多分类学习

多分类问题的一般思路:使用“拆解法”将多个分类任务拆为若干个二分类任务求解。具体来说,先对问题进行拆分,然后为拆出的每个二分类任务训练一个分类器。测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。

最经典的拆分策略有三种:一对一、一对其余、多对多
  • 一对一:将所有类别两两匹配,产生若干个分类器。最终结果通过投票产生。即把被预测的最多的类别作为最终分类模型。
  • 一对其余:每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器。测试时若仅有一个分类器预测为正类,则对应的类别标记为最终分类结果。若有多个分类器预测为正类,则通常考虑各分类器的预测置信度,选择置信度最大的类别标记作为分类结果。
  • 多对多:每次将若干个类作为正例,若干个其他类作为反例。常用的多对多技术:“纠错输出码”。

1.4. 类别不平衡问题

指分类任务中不同类别的训练样例数目差别很大的情况。 logistic回归中的几率

反映了正例可能性与反例可能性的比值。进行分类时阈值设为0.5表明分类器认为真实正、反例可能性相同。

然而,当正反例数目不同时,令

表示正例数目,
表示反例数目,则观测几率是
由于我们通常假设训练集是真实样本总体的无偏采样,因此观测几率就代表了真实几率。于是,只要分类器的预测几率高于观测几率就应判定为正例,即

因此,需要对预测值进行调整,令

这就是类别不平衡学习的一个基本策略---再缩放。

由于训练集是真实样本总体的无偏采样的假设往往并不成立,所以无法基于训练集的观测几率来推出真实几率。 现有的技术大体有三种做法 - 欠采样 利用集成学习机制,将反例划分为若干个集合供不同学习器使用,这样对每个学习器来看都进行了欠采样,但在全局来看不会丢失重要信息。 - 过采样 过采样不能简单的对初始正例样本进行重复采样,否则会导致严重的过拟合。过采样的代表性算法SMOTE通过对训练集里的正例进行插值来产生额外的正例。 - 阈值移动 在用训练好的分类器进行预测时,将再缩放公式嵌入到其决策过程中。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值