Logistic回归原理与思想的一些探讨

        Logistic回归在二分类问题上被广泛地应用,因为其在多数的问题上,比线性回归优异得多。下面是以最简单的二分类因变量为例来加以探讨(当然,逻辑回归还可以应用于多分类的情况下),常定义出现阳性结果时反应时反应变量取值为1,反之则取值为0。例如当对网络用户进行营销的时候,结果是:营销成功,用户购买,则反应变量为1,否则用户没有购买,因此反应变量为0。记出现阳性结果的频率为P(y=1)。很显然,0<=P<=1

       这里可能你会不明白为什么会定义一个P值。其实定义这个P值是很有意义的,也是逻辑回归的核心作用,因此,它就是指在给定特征条件的条件下求出现阳性的条件概率:P(y=1|X),其中X是一个向量。很自然,当P>0.5的时候,我们认为是阳性的,否则可以认为它是阴性的(0)。在这里,假设影响用户购买的因素有两个:消费总金额、工资,因此这里的X是两维的。

       看到这里,你可能会第一步是想到线性回归,首先回顾一下标准的线性回归模型:



    如果对分类变量直接拟合,则实质上拟合的是发生概率,参照上面回归方程,很自然地会想到是否可以建立下面形式的回归模型:



        显然,该模型可以描述当自变量变化时,因变量的发生概率会怎样变化,可以满足分析的需要。实际上,统计学家们最早也在朝这一方向努力,并考滤到最小二乘法拟合时遇到的各种问题,对计算方法进行了改进,最终提出了加权最小二乘法来对模型进行拟合。

       但是这种方法却存在严重的缺陷,存在以下两个问题是这种分析思路所无法解决的。

()取值区间:上述模型的右侧的取值范围,或者说应用上述模型进行预报的范围为整个实数集,而模型的左边的取值范围为0<=P<=1,二者并不相符;

()曲线关联:根据大量的观察,反应变量P与自变量的关系通常不是直线关系,而是S型曲线关系。使用上例子来说,当收入非常低时,收入的增加对购买概率影响很小的,但是在达到某一个阀值时,购买概率会随着收入的增加而迅增加;在购买水平达到一定的水平的时候绝大部分在该收入水平的人都会购买,收入的增加的影响又会逐渐减弱。如果用图形来表示,则如下图所示。


        显然,线性关联是线性回归中至关重要的一个前提假设,而在上述模型中这一假设是明显无法满足的。 到了这一步,现在反客为主,如果你是Cox,让你自己做,应该怎么去拟合这个函数概率呢?呵呵,如果我是Cox的话,假设存在n个特征,那么第一步想到的是贝叶斯定理:


上式就是求目标函数公式,代表的就是出现各项特征的时候的条件概率。根据上式,可以有:


再化成如下形式:

   (1)

看到右边的等式,你想到了些什么?如果你想到的是朴素贝叶斯定理,你就进了一步了,因为这一步是最为关键的一步,也是泛化到其他回归的算法的思想,也是其他回归而不限于逻辑回归的核心假设。没错,就是使用朴素贝叶斯定理,即假设类条件下,各变量都是独立的,因此有如下结果:


到了这一步再逆转一下,得到:

(2)

接下来要用到上面(2)中的假设了,也就是说,反应变量P与自变量的关系通常不是直线关系,而是S型曲线关系,而每个特征概率曲线为:

                                                                          (3)

结合(1)、(2)、(3)式可得:


因此,使用逻辑回归时,要注意两个重要的假设,就是:

1)各个变量应该呈S型分布的,满足这个条件假设得到的效果往往是最好的,否则得出的结果效果不好,但是可以根据构建模型的思想,使用特征的实际分布曲线而构造出新的回归模型,因此要学会举一反三;

2)类条件独立性,就是在给定类别的条件下,各特征因素是相互独立的。经常看到很多书没有提到这一点,而很多人都认为模型是不存在条件独立性这个假设的,因此在这里需要纠正一下。

 


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
逻辑回归是一个经典的分类算法,它可以处理二元分类以及多元分类。逻辑回归的原理是由线性回归模型演变而来的,因此含有“回归”二字,但它并不是一个回归算法,而是属于广义线性模型的一类。[2] 逻辑回归的基本原理可以概括为以下几个步骤: 1. 寻找预测函数:逻辑回归模型通过定义一个预测函数来预测观测样本的分类概率。常用的预测函数是sigmoid函数,也称为逻辑函数。这个函数将输入值映射到一个介于0和1之间的概率值。 2. 构造损失函数:为了使模型能够学习到最优的参数,需要定义一个损失函数来衡量预测值与真实值的差距。常用的损失函数是交叉熵损失函数,它可以度量模型的预测与实际分类之间的误差。 3. 损失函数的优化方法:为了最小化损失函数,常用的优化方法是梯度下降法。梯度下降法通过迭代更新模型参数,使得损失函数逐渐减小,从而达到寻找最优参数的目的。 逻辑回归的优点包括:实现简单,计算效率高,模型可解释性强,可以处理线性可分问题,并且可以通过调整阈值来控制分类的准确率与召回率的平衡。缺点包括:对于非线性可分问题表现较差,并且对异常值敏感。 逻辑回归与线性回归的区别在于目标变量的类型不同。线性回归用于预测连续型变量,而逻辑回归用于预测分类变量。此外,逻辑回归使用了sigmoid函数来模拟分类概率,而线性回归没有这个步骤。 以上是关于逻辑回归原理的一些简要介绍。如果需要更加详细的内容,可以参考引用的材料进行进一步学习。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值