logistic regression 逻辑斯蒂回归（两类）

最新推荐文章于 2023-03-11 17:58:36 发布

richard2357

最新推荐文章于 2023-03-11 17:58:36 发布

阅读量2.7k

点赞数

文章标签： machine learning 机器学习神经网络 logistic regression

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/richard2357/article/details/17241039

版权

logistic regression 从字面上就可以看出，分类实际上也是一种特殊的回归。其与linear regression的不同是输出增加了一个非线性映射，映射到0-1，从而可以利用概率进行分类。

分类问题有很多种模型，包括logistic regression，SVM支持向量机，神经网络等等，logistic是分类问题中最基本的内容。很多教材上也有讲到。但是对logistic函数的来龙去脉讲的并不清楚，到底logistic函数是如何推导出来？我找了很多相关的资料，终于把线索渐渐理清。

在所有讨论之前，我们先把logistic regression二类分类的模型画出来吧，给大家一个直观的感受。

图0. logistic regression 二类分类模型

其中f代表sigmoid函数。可能大家会问了，既然是二类分类，为什么只有一个输出呢？答：假如输出的值是正例的概率，那么反例的概率自然可以由1-P(正例)算出来。所以只用一个变量就够了。好了接下来我们开始引入我们的问题。

问题

图中"+"代表样本值为1，"o"代表样本值为0，求它们的分界线。（来自这里，该页面提供文档及源码）

图1

建立模型

图1中有N个样本，每个样本只能出现"+"或"o"，因此每个样本 $i$ 服从二项分布，设 $\theta _{i}$ 为正样本出现的出现的概率，二项分布可以写成这样：

$p(y_{i}|\theta _{i})=\theta _{i}^{y_{i}}(1-\theta _{i})^{1-y_{i}}$ （1）

其中每个 $\theta _{i}$ 是由 $\mathbf{x}_{i}$ 和 $\mathbf{w}$ 确定的

$\theta _{i}=f(\mathbf{w},\mathbf{x}_{i})$ （2）

那么函数f到底是具有什么样的形态呢？

我们知道二项分布属于exponential family（详见这篇博文），写成指数分布的好处有很多，包括求似然的时候连成可以变为连加等等。。

为了方便起见，我们先略去下标 $i$ ，（1）式可以写为

（3）

整理得

（4）

这一步步看似好像我们把（1）变复杂了，非也。现在它可以和exponential famility的标准形式比较一下

exponential family 标准形式：

（5）

我们对比（4）和（5），那么很自然的就有

（6）

也即

（7）

（7）式就是大名鼎鼎的logistic function啊！如是我们就把它推导出来了！

我们再简要的总结一下。能够(-∞,∞)映射到[0,1]的函数有很多，为什么我们就要用logistic函数呢？

原因：

（1）logistic function能让伯努利的指数分布是标准型式，更简洁。

（2）logistic function的求导很简洁，其它函数不行。

导数，多么简洁！

好了，中间我们插入了这么多，回过头来继续我们的分类问题。

将（7）代入（4），我们得到

（8）

由于 $\eta$ 的取值是(-∞,+∞)，我们可以令 $\eta =\mathbf{w}^{\textup{T}}\mathbf{x}$ ，因此（8）可以写为

（9）

那么正反例的概率分别是

这和李航《统计学习方法》中逻辑斯蒂回归一节中是一致的，但该书并没有给出这两个公式怎么来的。

为了求解参数w, 我们对（1）式求最大似然，结合（1）（3）可得似然函数

（10）

这个式子很容易化简，得到

（11）

问题就转换成解这个最优化问题了。

我们同时把L关于w的导数也写在下面。

（12）

其中 $\theta$ 的定义如（7）。

模型求解

思路一：解析法可行吗？为了求w我们只需令（12）为0就可以了。很可惜，对于（12）没有解析解。（这点与linear regression不同）

思路二：迭代法求解。包括梯度下降法和牛顿法。在linear regression线性回归一文中有介绍。

最终得到结果

好了，我们已经成功解决了线性分类问题。那么万一不是线性可分怎么办？我们将在下一节中解决。

参考资料

【1】http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=MachineLearning&doc=exercises/ex4/ex4.html （本文中例程及matlab源码来自这里）

【2】《Pattern Recognition and Machine Learning》第三四章，写的最本质，个人觉得最好的材料。下载这里

【3】《Machine Learning A Probabilistic Perspective》第七八九章，下载这里

【4】《统计学习方法》李航. 第六章。总结的很好，但是不够本质，没有给出公式的推导。看完【2】再看此书会很爽

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
logistic regression 逻辑斯蒂回归（两类）

logistic regression 从字面上就可以看出，分类实际上也是一种特殊的回归。其与linear regression的不同是输出增加了一个非线性映射，映射到0-1，从而可以利用概率进行分类。分类问题有很多种模型，包括logistic regression，SVM支持向量机，神经网络等等，logistic是分类问题中最基本的内容。很多教材上也有讲到。但是对logistic函数的来龙去
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。