正则化的通俗解释_逻辑回归的几何解释

了解如何使用几何解释得出逻辑回归的成本函数

fd6693b970b554cee4fbbb09dbbde2cf.png

> Photo by ThisisEngineering RAEng on Unsplash

Logistic回归是使用Logistic函数对二进制因变量建模的统计模型。 用几何解释术语,逻辑回归试图找到最能区分这两个类别的直线或平面。 Logistic回归适用于几乎或完全线性可分离的数据集。

线性可分离术语是什么意思?

对于二元分类数据集,如果一条线或一条平面可以将两个类别几乎或完全分开,则此类数据集称为线性可分离数据集。 否则,如果两个类不能用直线或平面分开,则数据集不是线性可分离的。

46a0714ff72de404a8ee27353f68cee2.png

> Left Image: Linearly Separable, Right Image: Non-Linearly Separable

从上面的二维样本数据集中,左样本数据集几乎可以由一条线线性分离,而对于右样本数据集,没有线可以将两类点分开。

cbc9b78c3fc0ff2b511cc0f246aba27f.png

> Image 2

在(图2)中,该线将3个点分类错误(红色圆圈)最好地分离了两类点。

深入探讨算法的几何解释:

c58a97ed3ef077fd8f3f2ff5a168a6c5.png

> Image 3: Xi and Xj are correctly classified points

对于上面的示例数据集,假设我们需要找到一个将两个类分开的平面" P"。

平面的一般方程式为:

a3cd7c88ca8c16afc62fdf3892c80f50.png
b79c6f42a0f740eda6837717fcbfd1e8.png

所以最后我们需要找到飞机" P"。 令两类点为y_i = {1,-1}。 对于任意两个随机点x_i和x_j。

92398ff1437cc9dff7874caf11cdd979.png
bcad0443770df9290b681ab8c6b178e6.png

d_i =平面与x_i之间的距离

dea24f8584d5636d8e191d42c6f82a15.png

d_j =平面与x_j之间的距离

对于正确分类的点(图3):

d_i> 0且d_j <0

Now for a positive class point: y_i = +1(d_i * y_i) > 0, since d_i > 0 and y_i > 0For a negative class point: y_i = -1(d_i * y_i) > 0, since d_i < 0 and y_i < 0

因此,对于正确分类的点,(y_i * d_i)始终为正

对于错误分类的点(图4):

3cf182bc220cb3e6f92d73c33c67d79b.png

> Image 4: Xi and Xj are incorrectly classified points

d_i <0和d_j> 0

For a positive class point: y_i = +1(d_i * y_i) < 0, since y_i > 0 and d_i < 0 (because on wrong side)For a negative class point: y_i = -1(d_i * y_i) < 0, since d_i > 0 and y_i < 0 (because on wrong side)

对于错误分类的点,(y_i * d_i)始终为负

因此,要获得最佳解决方案,我们需要最大化(y_i * d_i)。 我们需要找到最佳W,w_0,以使以下等式最大化。

9576bf54b148d8235615fb148d03cc19.png

Sigmod:

3843457c0a6e6e8c1fa5b026059128d4.png

> Image 4

由于存在否定类的离群点,因此上述获得的成本函数将获得普通的" P2"作为最佳平面,但事实并非如此。 平面" P1"最好将两类点分开。

离群点或极端点的存在会在很大程度上影响飞机。 为了避免这种情况,我们需要找到一个函数,如果(y_i * d_i)值太大而id(y_i * d_i)值很小,则该函数应保持较小。

我们需要一个像

38c65bc5f3d9ffd00fdb89a9afe8ebe4.png

> Image 5

如果x的值较大,则f(x)逐渐变小;如果x的值较小,则f(x)保持较小。

Sigmod函数:

S形函数的图清楚地定义了它满足条件。 S形函数的数学方程式:

2cf745fcda00ee7d9db19e560f419c9d.png
33f3a336c5348591c28046c7f3ec2f97.png

> Source: Google Plots, Image 6, Plot for sigmoid function

因此,方程式归结为:

d737ffe00cad9f1bba6fcb1f08b3d2d5.png
a4a959d166d30cc6c2bc4a8d9f3b1641.png

为使方程式最小化:

如果G(x)是单调递增函数,则G(F(x))也是单调递增函数。

e5f7190d0f5a5b490eb5cf4973eadad5.png

将F(x)作为上述推导方程,将G(x)作为log(x)作为log(x)是单调递增函数。

bb8b3de31889518be406b92bcc18030c.png

> Source: Google Plots, Image 7, Plot of log_e(x)

等式归结为:

56580f1a91f0dfc895306fad9a939844.png
34baf85b9157ea550361d6199b305062.png
6fcce32d4ba15883e8b01f360a017c7b.png
ffc02404f1af3ab354ce72add2913112.png

正则化:

由于log_e(z)的最小值为0。因此,优化程序将尝试将上述公式的值最小化为0,从而使log_e(z)的" z" = 1。

c5844247999fdf5de1d421bcab132205.png
18343895e69489dfa36ad3513e0503a9.png
d81e62843794fef35435819ad308b088.png

因此,W,w_0趋于无穷大,以满足方程式,这将使逻辑回归。

添加L2正则化:

df4b72d88f9618205349ace80549cd2a.png

上面推导的方程是逻辑回归算法的成本函数。 我们使用一个优化器来计算W的最佳值w_0,从而使上述成本函数最小化。 上式中的" lambda"是一个超参数。

偏差偏差权衡:

如果lambda = 0,那么上面的等式将不包含任何会使模型过拟合的正则化项。

如果lambda->无限(大值),则该术语正则化的权重非常高,并且将使该术语的其余部分蒙上阴影,从而导致欠拟合模型。

预测查询点的目标类:

671badeefe4a4a708d1dcc55600fd357.png

> Image 7: Query

d40c9f8300710a25d32bcd11aaf77e43.png

> W, w_0 is computed by minimizing the cost function

对于查询" q1",y_pred> 0(在W方向上为q1)

对于查询" q2",y_pred <0(与W相反的方向上的q2)

谢谢您的阅读!

(本文翻译自Satyam Kumar的文章《Geometric Interpretation of Logistic Regression》,参考:https://towardsdatascience.com/geometric-interpretation-of-logistic-regression-4f85047a5860)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值