正则化的通俗解释_逻辑回归的几何解释

最新推荐文章于 2022-10-02 01:03:05 发布

weixin_39953244

最新推荐文章于 2022-10-02 01:03:05 发布

阅读量187

点赞数

文章标签：正则化的通俗解释

了解如何使用几何解释得出逻辑回归的成本函数

> Photo by ThisisEngineering RAEng on Unsplash

Logistic回归是使用Logistic函数对二进制因变量建模的统计模型。用几何解释术语，逻辑回归试图找到最能区分这两个类别的直线或平面。 Logistic回归适用于几乎或完全线性可分离的数据集。

线性可分离术语是什么意思？

对于二元分类数据集，如果一条线或一条平面可以将两个类别几乎或完全分开，则此类数据集称为线性可分离数据集。否则，如果两个类不能用直线或平面分开，则数据集不是线性可分离的。

> Left Image: Linearly Separable, Right Image: Non-Linearly Separable

从上面的二维样本数据集中，左样本数据集几乎可以由一条线线性分离，而对于右样本数据集，没有线可以将两类点分开。

> Image 2

在(图2)中，该线将3个点分类错误(红色圆圈)最好地分离了两类点。

深入探讨算法的几何解释：

> Image 3: Xi and Xj are correctly classified points

对于上面的示例数据集，假设我们需要找到一个将两个类分开的平面" P"。

平面的一般方程式为：

所以最后我们需要找到飞机" P"。令两类点为y_i = {1，-1}。对于任意两个随机点x_i和x_j。

d_i =平面与x_i之间的距离

d_j =平面与x_j之间的距离

对于正确分类的点(图3)：

d_i> 0且d_j <0

Now for a positive class point: y_i = +1(d_i * y_i) > 0, since d_i > 0 and y_i > 0For a negative class point: y_i = -1(d_i * y_i) > 0, since d_i < 0 and y_i < 0

因此，对于正确分类的点，(y_i * d_i)始终为正

对于错误分类的点(图4)：

> Image 4: Xi and Xj are incorrectly classified points

d_i <0和d_j> 0

For a positive class point: y_i = +1(d_i * y_i) < 0, since y_i > 0 and d_i < 0 (because on wrong side)For a negative class point: y_i = -1(d_i * y_i) < 0, since d_i > 0 and y_i < 0 (because on wrong side)

对于错误分类的点，(y_i * d_i)始终为负

因此，要获得最佳解决方案，我们需要最大化(y_i * d_i)。我们需要找到最佳W，w_0，以使以下等式最大化。

Sigmod：

> Image 4

由于存在否定类的离群点，因此上述获得的成本函数将获得普通的" P2"作为最佳平面，但事实并非如此。平面" P1"最好将两类点分开。

离群点或极端点的存在会在很大程度上影响飞机。为了避免这种情况，我们需要找到一个函数，如果(y_i * d_i)值太大而id(y_i * d_i)值很小，则该函数应保持较小。

我们需要一个像

> Image 5

如果x的值较大，则f(x)逐渐变小；如果x的值较小，则f(x)保持较小。

Sigmod函数：

S形函数的图清楚地定义了它满足条件。 S形函数的数学方程式：

> Source: Google Plots, Image 6, Plot for sigmoid function

因此，方程式归结为：

为使方程式最小化：

如果G(x)是单调递增函数，则G(F(x))也是单调递增函数。

将F(x)作为上述推导方程，将G(x)作为log(x)作为log(x)是单调递增函数。

> Source: Google Plots, Image 7, Plot of log_e(x)

等式归结为：

正则化：

由于log_e(z)的最小值为0。因此，优化程序将尝试将上述公式的值最小化为0，从而使log_e(z)的" z" = 1。

因此，W，w_0趋于无穷大，以满足方程式，这将使逻辑回归。

添加L2正则化：

上面推导的方程是逻辑回归算法的成本函数。我们使用一个优化器来计算W的最佳值w_0，从而使上述成本函数最小化。上式中的" lambda"是一个超参数。

偏差偏差权衡：

如果lambda = 0，那么上面的等式将不包含任何会使模型过拟合的正则化项。

如果lambda->无限(大值)，则该术语正则化的权重非常高，并且将使该术语的其余部分蒙上阴影，从而导致欠拟合模型。

预测查询点的目标类：

> Image 7: Query

> W, w_0 is computed by minimizing the cost function

对于查询" q1"，y_pred> 0(在W方向上为q1)

对于查询" q2"，y_pred <0(与W相反的方向上的q2)

谢谢您的阅读！

(本文翻译自Satyam Kumar的文章《Geometric Interpretation of Logistic Regression》，参考：https://towardsdatascience.com/geometric-interpretation-of-logistic-regression-4f85047a5860)

weixin_39953244

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则化的通俗解释_逻辑回归的几何解释

了解如何使用几何解释得出逻辑回归的成本函数> Photo by ThisisEngineering RAEng on UnsplashLogistic回归是使用Logistic函数对二进制因变量建模的统计模型。用几何解释术语，逻辑回归试图找到最能区分这两个类别的直线或平面。 Logistic回归适用于几乎或完全线性可分离的数据集。线性可分离术语是什么意思？对于二元分类数据集，如果一条线或一...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。