逻辑回归学习笔记

lo扬州炒饭ol

于 2018-11-23 11:54:26 发布

阅读量92

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/tissue16/article/details/84345338

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一直对逻辑回归的认识不够深，所以想要借着本文整理一下与逻辑回归有关的知识。能力有限，先挖坑，之后慢慢填吧。

线性回归

从线性回归说起。假设我们有n个样本，每个样本中有d个属性。线性回归的思路是：我想要用这d个属性的线性组合来预测标签y，即
$f (x)=w_1x_1+w_2x_2+...+w_dx_d+b$
也可以写成
$f(x) = w^T x + b$
$f (x)$ 就是我们的预测值了。
那么，如何评价我们预测的准不准（或者说模型的好坏）呢？
一个简单的方法就是计算预测值和结果值的差： $y - f (x)$ ，得到的差越小(或者称为损失越小)，即模型效果越好。
在整个样本集中，就是要让以下损失函数最小。
$L1=\underset{w,b}{\operatorname{argmin}}\sum_{i=1}^{n}|y-f(x)|$
或者
$\underset{w,b}{\operatorname{argmin}}\sum_{i=1}^{n}(y-f(x))^2$
其中L1是绝对值损失函数，L2是平方损失函数。
（因为每个样本的损失 $y - f (x)$ 有可能大于0，也有可能小于0，不取平方或者绝对值的话，他们会相互抵消掉）
以L2为例，要让L2最小化，也就是要让L2分别对w和b求导，导数为0的值就是w和b的最优解了。
$\frac{\partial E_{(L2)}}{\partial w} = 2(\sum_{i=0}^{n}(y_i - b)x_i -w\sum_{i=1}^{n}x_i^2)$
$\frac{\partial E_{(L2)}}{\partial b} = 2(\sum_{i=1}^{n}(y_i - wx_i) - mb)$
为什么导数为0就是他们的最优解呢？ $设 a^2 = (y-f(x))^2$ ，明显， $a^2$ 是一个凸函数，当凸函数的导数等于0的时候，也就是在a=0的时候有最小值。

逻辑回归

上面讲的线性回归一般是用于回归任务中。那遇到分类任务怎么办呢？这时候，就轮到我们逻辑回归进场了。
在二分类任务中， $y\in{\{0,1\}}$ 。我们的预测函数为 $Z=W^TX + b$ ，当Z<0时判为负例，Z>0时判为正例。
在这里插入图片描述
那它的平方损失函数就是
$\underset{w,b}{\operatorname{argmin}}\sum_{i=1}^{n}(y≠f(x))^2$
这里就有一个问题了，在Z不是处处可导的，在z=0的时候，它不可导。所以！我们就使用一个近似的函数来替代这个阶跃函数。而这个函数，我们找到了，它就符合我们的条件：
$y=\frac{1}{1+e^{-z}}$
它的分布函数如下：
在这里插入图片描述
在 $x \to - \infty$ 时 $x = - 1$ , $x \to \infty$ 时 $x = 1$ 。而且处处可微。
好，现在讲 $w^Tx+b$ 代入 $y=\frac{1}{1+e^{-z}}$ ，得到：
$P(Y=1|x)=y=\frac{1}{1+e^{-(w^T+b)}}$
那么预测到它是负样本的概率是：
$\frac{e^{-(w^T+b)}}{1+e^{-(w^T+b)}}$
当我们计算正负样本的比值，并且取对数，得到：
$log\frac{P(Y=1|x)}{P(Y=0|x)} =log(\frac{1}{e^{-(w^T+b)}}) =w^T+b$
此时，就将问题转换为一个线性问题了。只要 $l o g i t (P) > 1$ ，则输出正样本，否则输出负样本。