逻辑斯蒂回归（logistic regression）学习笔记

最新推荐文章于 2024-01-05 21:42:34 发布

lvxiao9856

最新推荐文章于 2024-01-05 21:42:34 发布

阅读量1.6k

点赞数

分类专栏：自然语言处理

自然语言处理专栏收录该内容

6 篇文章 0 订阅

订阅专栏

什么是逻辑斯蒂回归，参见维基百科的解释点击打开链接。

后面的参考博客已经给逻辑斯蒂回归做了很多基础东西的讲解（越是基础的东西越难讲清楚）。在这里我对逻辑斯蒂回归记录一点自己的认识。

两个问题：

Q1，为什么选用logistic function？

Q2，logistic regression到底在做什么？

Q1，为什么选用logistic function？

Q2，logistic regression到底在做什么？

$x = \{ x_{1}, x_{2}...x_{n} \}$ 是样本，每个样本是由一组样本特征表示。

$w = \{ w_{1}, w_{2}...w_{n} \}$ 是参数组，每个参数组由对应特征的参数组成。

logistic regression建模时候无非就是找到一组非常合适的参数 $w$ 。这组参数按照什么样的标准去找？参数 $w$ 变化导致什么在变？我觉得这两个问题弄清楚，那么对logistic regression也就有了一个直观的认识。

简单起见，stanford的Andrew的课程中，从cost function出发去分析。为什么选用这个cost function。课程里面讲解是因为有牛人证明过他是凸的，他是有全局最优解的，我们可以使用梯度下降，牛顿法等去寻找这参数组 $w$ 。当然也可能存在其他的cost function，按照其他的标准去寻找。

在coursera中：

hypothesis是：

$h_{w}(x)=g(w^{T}x)=\frac{1}{1+e^{-w^{T}x}}$

单个样本cost function是：

$Cost(h_{w},y)= \left\{ \begin{array}{c} -log(h_{w}(x)) \quad \ \ \ \ \ if \ y = 1 \\ -log(1-h_{w}(x)) \quad if \ y = 0\\ \end{array} \right.$

总体样本的cost function是：

$J(w)=\frac {1}{m}\sum^{m}_{i=1}Cost(h_{w}(x^{(i)}), y^{(i)})$

我们的目标就是去寻找一组参数组 $w$ ;，最小化上述的总体样本的cost即 $J$ 的数值。cost function是什么样的？我们将单个cost function拆开来看，如下图

图1，logistic regression对于单个样本的cost function(平滑的那条线，不是那边折线)

*图片来自coursera中Andrew Ng讲授的Machine Learning的课件

图2，经过参数组w映射后的logit函数。

*图片来自coursera中Andrew Ng讲授的Machine Learning的课件

我们会发现对于单个样本 $x$ , 他进过映射后（也就是 $z=w^{T}x$ ）成为 $z$ 进入另一个坐标系（图中画的那个坐标系）。我们看到对于 $z$ ，在我们的寻找标准（也就是cost function）中，我们是希望这个训练样本 $x$ ，如果他是正例（标记为1的样本，对应于图1中左边的坐标系），我们希望他进过映射后的 $z$ 能够很大，以至于cost很小，接近于0；如果他是负例（标记为0的样本，对应于图1中右边的坐标系），我们希望它经过映射后的 $z$ 能够很小，以至于cost很小，接近于0。单看某一个样本，调整参数组 $w$ ，它自己的cost可以很小。但是我们是希望总体的cost即 $J$ （注意 $J$ 是对所有样本的cost求和）最小。

对于某一个样本 $x$ ，变化参数组 $w$ ，它自身的cost可能变小很多，但是对于其他的样本，他们的cost也同时在变化。也就是说对于单个样本最好的参数组 $w$ ，不一定是对于所有样本最好的参数组 $w$ 。我们调整参数组 $w$ ，就是希望样本映射后的 $z$ ，在图2中正例尽量往左侧靠（它的p就非常接近1），负例尽量往右侧靠（它的p非常接近0）。具体做法，就是选择一组参数 $w$ ，然后观察样本映射后的分布。然后按照最小化cost的标准去调整参数组 $w$ ，使用调整后的 $w$ 去映射样本，然后继续观察样本映射后的分布，继续调整下去.....

注意，当某一组参数 $w$ ;，使得样本的判别全部正确（正例样本都分类为1，负例样本都分类为0 ），此时的 $w$ 也不一定的最优的。因为全部全别正确，只是说明映射后在图2中正例全部在右侧，负例全部在左侧。但此时可能不是往两端靠近。切记，我们找到的参数组 $w$ ，是使得样本映射后的 $z$ 总体往两端靠的最远。

原作者：

http://blog.csdn.net/hellonlp/article/details/17629231

参考博客：

http://hi.baidu.com/hehehehello/item/40025c33d7d9b7b9633aff87

http://52opencourse.com/125/coursera%E5%85%AC%E5%BC%80%E8%AF%BE%E7%AC%94%E8%AE%B0-%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%AC%AC%E5%85%AD%E8%AF%BE-%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92-logistic-regression

http://blog.csdn.net/abcjennifer/article/details/7716281

lvxiao9856

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
逻辑斯蒂回归（logistic regression）学习笔记

什么是逻辑斯蒂回归，参见维基百科的解释点击打开链接。后面的参考博客已经给逻辑斯蒂回归做了很多基础东西的讲解（越是基础的东西越难讲清楚）。在这里我对逻辑斯蒂回归记录一点自己的认识。两个问题：Q1，为什么选用logistic function？Q2，logistic regression到底在做什么？Q1，为什么选用logistic function？
复制链接

扫一扫