Logistic回归在20世纪初用于生物科学。 它被用于许多社会科学应用中。 当因变量(目标)是需要被分类的时,我们可以使用使用逻辑回归。
例如这些二分类问题(答案只是‘是’或‘不是’):
预测电子邮件是垃圾邮件。
肿瘤是否为恶性。
如果我们针对这些问题使用线性回归,则需要根据可完成的分类设置阈值。 假设实际类别为恶性,预测连续值为0.4,阈值为0.5,则该数据点将被归类为非恶性,这可能导致严重的实时后果。从该示例可以推断出线性回归不适用于这种分类问题。 线性回归是无限的,这使逻辑回归成为现实。 其值严格在0到1之间。本文将着重介绍逻辑回归,线性回归将在下一篇介绍。
如下图所示,以这个为例,下面的每一个红点都是带有一个已知的(x,y)。

假设我们需要得出下面的公示来预测分类后面的点,从公示中我们可以看出x,y已知。我们需要求出β。

[1]
那么要预测一件事情,就需要很多的参数向量以及自变向量。 比如判断是否是恶性肿瘤,我们就需要拍片子,验血等,拍片子的权重可能是4,验血的权重可能是6.那么将他们加权求和就能得到如下结果:
θ^T X就可以帮助我们得到用来预测结果的方程:
在这里插入图片描述

【2】
但是此时还有一个问题,就是我们希望将输出控制在0或者1之间,不希望太大,所以变成如下函数,那么这个函数就是我们的逻辑函数:

从图中我们可以很明显的看出y=0.5是个分界线。那么我们就可以得到如下结果:

以图中判断男女为例,当f(x)<0.5时,是女性的可能性更大,当f(x)>0.5时,是男性的可能更大,由此来进行二分。
回到我们的方程[1] 我们可以发现有的时候我们找不到能满足所有(x,y)的β。那么我们就需要找到所谓的最优解关于损失函数的定义,请参考我之前的文章,这里不再介绍。今天我们这里用到交叉熵函数,交叉熵函数主要是作为损失函数来判断逻辑函数的误差值,误差值越小则准确度越高,所以我们就需要找到下面函数的最小值,也就是我们的最优解。
‘熵’是用来形容一个时间的不确定性,不可预测性,不稳定性。比如在大马路上,所有车辆沿着自己的车道按序行驶,这样的熵就很小,如果马路上所有车都来来回回变换车道,那么熵就很大。
交叉熵函数的方程如下:


左图:如果我们的预测是0,结果是1。
右图:右图与左图对称。如果我们的预测为1 基本事实为0。
在这个式子中除了θ(就是我们的β)是未知的。其他都是已知的。 ‘m’是我们的数据数量,也就是最上面红点的数量。‘y^(i)’也是已知的真实值。
最后在我们得到最优的θ之后,我们将这个θ带入到我们的方程[2]中,之后就可以使用这个方程来判断输入的X所属的分类。
那么问题来了我们要怎么求解这个最优的θ。
在这里我们使用到一个叫‘梯度下降’的方法。


本文深入探讨了逻辑回归的历史背景及在生物科学和社会科学中的应用。重点介绍了逻辑回归如何解决分类问题,特别是在二分类场景下优于线性回归的表现。通过实例解析了逻辑函数的形成及其在分类中的作用,并详细讲解了利用交叉熵函数寻找最优解的过程。

被折叠的 条评论
为什么被折叠?



