机器篇——逻辑回归(Logistic Regression)

最新推荐文章于 2022-10-03 22:14:49 发布

置顶

万道一

最新推荐文章于 2022-10-03 22:14:49 发布

阅读量1.8k

点赞数 1

分类专栏： AI章文章标签：机器学习

本文链接：https://blog.csdn.net/qq_38299170/article/details/103691841

版权

本文详细介绍了逻辑回归的概念，重点探讨Sigmoid函数的性质、目标函数、梯度下降法以及正则化。通过最大熵原理推导出Sigmoid函数的起源，并提供代码实践。

摘要由CSDN通过智能技术生成

返回目录

上一章：机器篇——线性回归

下一章：机器篇——决策树(一)

细讲了线性回归的推导和代码，图文结合，本章再接再厉，来讲解逻辑回归。大佬来了，请多多指教。

逻辑回归的理解

一. 回归与分类

1. 关于回归，给人直观的理解就是拟合

2. 对于二类线性可分的数据集，使用线性感知器就可以很好的分类

3. 但如果二类线性不可分的数据，无法找到一条直线能够将两种类别很好地区分，即线性回归的分类对于线性不可分的数据无法有效分类。

4. 诚然，数据线性可分可以使用线性分类器；如果数据线性不可分，可以使用非线性分类器。这里，似乎没逻辑回归什么事情。但是，如果想知道对于一个二分类问题，其具体的一个样例：不仅想知道该分类属于某一类，而且还想知道该类属于某一类的概率有多大。

5. 线性回归和非线性回归的问题都不能给予解答，假设其分类函数如下：

$\LARGE y = W^TX$

6. 因为概率的范围在 [0, 1] 之间，这就需要一个更好的映射函数，能够将分类的结果很好的映射成 [0, 1] 之间的概率，并且这个函数能够具有很好的可微分性。在这种需求下，大佬找到了这个映射函数，即 Sigmoid 函数。其形式如下：

$\LARGE g(z) = \tfrac{1}{1 + e^{-z}}$

7. Sigmoid & Logistic Regression

(1). 在学习 Logistic Regression 的时候，会出现一个重要的问题：

为什么 LR (Logistic Regression) 会使用 Sigmoid 函数，而不是其他的函数？

(2). 其实，上述的问题本身就是不对的。因为是使用了 Logistic Function (Sigmoid) ，所以才有了 Logistic Regression 这个名字。即：正是因为 Sigmoid 才有了 LR，而不是 LR 选择了 Sigmoid 函数。

8. 由于 LR 是使用回归函数做分类，而假设的回归函数为： $\large y = WX$ ，由于 Sigmoid 函数为 $\large g(z) = \tfrac{1}{1 + e ^{-z}}$ 。所以， $\large g(z)$ 是关于 $\large y$ 的函数，即：

$\LARGE \left\{\begin{matrix} y = WX& & \\ g(z) = \tfrac{1}{1 + e^{-z}} & & \end{matrix}\right.\Rightarrow g(w, x) = \tfrac{1}{1 + e^{-WX}}$

二. Sigmoid 的性质与目标函数

1. Sigmoid 函数的导数： $\large g'(z) = g(z)(1 - g(z))$

推导过程：

$\LARGE g'(z) = \frac{\partial g(z)}{\partial z}$

$\LARGE = \tfrac{-1}{(1 + e^{-z})^2}e^{-z}(-1)$

$\LARGE = \tfrac{e^{-z}}{(1 + e^{-z})^2}$

$\LARGE = \tfrac{1}{1 + e^{-z}}(1 - \tfrac{1}{1 + e^{-z}})$

$\LARGE = g(z)(1 - g(z))$

2. Sigmoid 函数的概率

因为 Sigmoid 函数的概率值在 [0, 1] 之间，即：

$\large p_{i}(right) = \left\{\begin{matrix} g(w, x_{i}) & p(positive): y_{i} = 1 \\ 1 - g(w, x_{i}) & p(negative): y_{i} = 0 \end{matrix}\right.$

所以对于每一条数据预测正确的概率：

$\LARGE p_{i}(right) = [g(w, x_{i})]^{y_{i}}[1 - g(w, x_{i})]^{1 - y_{i}}$

3. 全部预测正确的概率

由于 Sigmoid 函数服从正太分布，而且：

全部预测正确的概率 = 每一条数据预测正确的概率相乘

$\LARGE p(allRight) = \prod_{i = 1}^{m}p_{i}(right)$

4. LR 的目标函数

记 $\large p(allRight)$ 为 $\large L(\theta)$ ， $\large w$ 与 $\large \theta$ 等价。

由

最低0.47元/天解锁文章

万道一

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录