ML笔记——逻辑回归

最新推荐文章于 2021-04-03 15:47:08 发布

HerdingCat

最新推荐文章于 2021-04-03 15:47:08 发布

阅读量385

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/fancy_real/article/details/80266854

版权

Machine Learning 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

想法

先考虑二值的分类（预测结果只有好／坏，输／赢，行动／停留等等），再考虑多值的分类（预测结果含有两种以上情况：天气是晴／多云／下雨，心情是开心／悲伤／忧郁等等）
当有如下两组数据时
二值分类
多值分类
也像线性回归时那样，尝试用一个函数表达式将它表示出来。

数学表示

在逻辑回归中我们尝试用sigmoid函数（或logistic函数）去拟合，图像如下图
sigmoid
结合所使用的数据，可以使用如下公式
$\left \{ \begin{array}{2} g(z)=\frac{1}{1+e^{-z}} \\ h_\theta(x)=g(\theta^TX) \end{array} \right.$
即
$h_\theta(x)=\frac{1}{1+e^{-\theta^TX}}$
其中 $\theta^TX$ 叫做决策边界，不做特别说明都指线性函数
通过代价函数表示 $\theta$ 取值的合理性
$J(\theta) = \frac{1}{m} \sum_{i=1}^m Cost\ (h_\theta(x^i), y^i)\\$
$Cost\ (h_\theta(x^i), \ y^i)= \left \{ \begin{array}{2} -\log(h_\theta(x^i)) \quad y^i = 1 \\ -\log(1-h_\theta(x^i)) \quad y^i = 0 \end{array} \right.$ （本文中的 $\log$ 与 $\ln$ 等价）
即
$J(\theta) = -\frac{1}{m} \sum_{i=1}^m [ y^i \log(h_\theta(x^i)) +(1-y^i) \log(1-h_\theta(x^i))] \\$
并用梯度下降算法，取 $\theta$ 有 $\min_\theta J(\theta)$
对于多值的分类，可以转换为二值处理
将 $n$ 种预测情况分别从总体数据人为的分离出来，做一次逻辑回归，得到 $h_\theta^i(x)$ （其中的 $i$ 表示第 $i$ 种预测情况）
对于需要作出预测的数据 $x$ ，将得到 $\max_i h_\theta^i(x)$ 的一个结果

胡思乱想时刻

为什么 $h_\theta(x)=\frac{1}{1+e^{-\theta^TX}}$ 能够比线性函数更好的拟合离散的数据

首先，sigmoid函数的取值范围是 $(0, 1)$ ，而线性函数的取值可能落在 $(0, 1)$ 之外
其次，sigmoid函数又一个特殊点，如上图所示当 $x=0$ 时，sigmoid函数的取值为 $0.5$ ，将整个取值范围分成两份，这也恰好对应于我们所要求的 $y \in \{0, 1\}$ ；对于线性函数，很难找到这样一个点或者说找到这样一个点不能达到预想的效果。
决策边界如何作用于sigmoid函数达到拟合数据集的目的

第一问中提到，特殊点的位置决定了如何划分sigmoid函数的取值，那么选择合适的决策边界用以确定特殊点位置，就能划分数据集。
利用sigmoid函数的性质，我们对 $h_\theta(x)=\frac{1}{1+e^{-\theta^TX}}$ 分析
结合sigmoid图像，设 $h_\theta(x) < 0.5$ 时， $y=0$ ； $h_\theta(x) \ge 0.5$ 时， $y=1$
则 $\frac{1}{1+e^{-\theta^TX}} < \frac{1}{2}$ ，也就是 $1+e^{-\theta^TX} > 2$ ， $e^{-\theta^TX} > 1$ ，两边取对数后， $-\theta^TX > 0$
也就是 $\theta^TX < 0$ 时， $y=0$ ，同理， $\theta^TX \ge 0$ 时， $y=1$
结合图像来说就是，决策边界的两侧对应 $y$ 的不同取值

对于单变量 $x$ ，如图

如果取 $x=1$ 时，就能将两个数据集分为左右两半，当 $x<1$ 时， $y=0$ ，当 $x \ge 1$ 时， $y=1$
又如图，存在多个变量时，

如果选取直线 $2x_1+1.5x_2=3$ ，也能将两个数据集分开，当 $2x_1+1.5x_2<3$ 时， $y=0$ ，当 $2x_1+1.5x_2 \ge 3$ 时， $y=1$
此外还适合于多项式的形式

图中，当 $3x^2_1+5x^2_2<12$ 时， $y=0$ ，当 $3x^2_1+5x^2_2 \ge 12$ 时， $y=1$
注：线性回归时，我们希望数据都落在线上；而逻辑回归时，我们希望数据都分散在线的两侧
$Cost\ (h_\theta(x^i), y^i)$

该类函数的选择，需要做到能反映预测值与真实值的差距，同时需要保证该函数 $\frac{f(x_1)+f(x_2)}{2} \le f(\frac{x_1+x_2}{2})$ （方便计算）
虽然用 $(h_\theta(x^i)-y^i)^2$ 能表示预测值与真实值的差距，但是不满足存在唯一的极小值点
如果取 $Cost\ (h_\theta(x^i), \ y^i)= \left \{ \begin{array}{2} -\log(h_\theta(x^i)) \quad y^ = 1 \\ -\log(1-h_\theta(x^i)) \quad y^i = 0 \end{array} \right.$ 那么满足上述的两个条件
当 $y^i=0$ 时， $Cost(h_\theta(x^i), y^i) = -\log(1-h_\theta(x^i))$
已知 $h_\theta(x) \in (0, 1)$ ，则 $1-h_\theta(x) \in (0, 1)$
$Cost(h_\theta(x^i), y^i) = -\log(1-h_\theta(x^i))$ 的图像如下

当假设函数越接近 $0$ 的时候， $Cost$ 函数越接近 $0$ ；当假设函数越接近 $1$ 时， $Cost$ 函数越趋于 $\infty$ ，也就是假设函数越接近 $0$ 的时候，这个模型预测越正确
再考虑到函数接近 $0$ 时， $y$ 的取值
所以，当 $y^i=0$ 时，用 $Cost(h_\theta(x^i), y^i) = -\log(1-h_\theta(x^i))$ 表示偏差
同理，当 $y^i=1$ 时，用 $Cost(h_\theta(x^i), y^i) = -\log(h_\theta(x^i))$ 表示偏差
求 $\theta$ 的过程

利用梯度下降算法，求解 $\theta$ 值
$\theta_j=\theta_j-\alpha \frac{\partial}{\partial \theta_j}J(\theta)$
$h_\theta(x)=\frac{1}{1+e^{-\theta^TX}}, \ 1 - h_\theta(x) = \frac{e^{-\theta^TX}}{1+e^{-\theta^TX}}$
其中 $\frac{\partial}{\partial \theta_j}J(\theta) = -\frac{1}{m} \sum_{i=1}^m \frac{\partial}{\partial \theta_j}[y^i \log(h_\theta(x^i))+(1-y^i) \log(1-h_\theta(x^i))] \\ = -\frac{1}{m} \sum_{i=1}^m[y^i \cdot \frac{1}{h_\theta(x^i)} \cdot \frac{1}{(1+e^{-\theta^TX})^2} \cdot e^{-\theta^TX} \cdot x^i_j - (1-y^i) \cdot \frac{1}{1-h_\theta(x^i)} \cdot \frac{1}{(1+e^{-\theta^TX})^2} \cdot e^{-\theta^TX} \cdot x^i_j] \\ = -\frac{1}{m} \sum_{i=1}^m[(\frac{y^i}{h_\theta(x^i)} + \frac{y^i-1}{1-h_\theta(x^i)}) \cdot (\frac{1}{(1+e^{-\theta^TX})^2} \cdot e^{-\theta^TX} \cdot x^i_j)] \\ = -\frac{1}{m} \sum_{i=1}^m[\frac{y^i - y^i h_\theta(x^i) - h_\theta(x^i) + y^i h_\theta(x^i)}{h_\theta(x^i)(1-h_\theta(x^i))} \cdot \frac{1}{(1+e^{-\theta^TX})^2} \cdot e^{-\theta^TX} \cdot x^i_j]$
上式中 $h_\theta(x^i)(1-h_\theta(x^i)) = \frac{e^{-\theta^TX}} {(1+e^{-\theta^TX})^2}$
得到原式 $\frac{\partial}{\partial \theta_j}J(\theta)=\frac{1}{m} \sum_{i=1}^m(h_\theta(x^i) -y^i) \cdot x^i_j$