机器学习入门——逻辑回归

最新推荐文章于 2022-05-27 10:12:45 发布

C.js

最新推荐文章于 2022-05-27 10:12:45 发布

阅读量266

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/chen30924190/article/details/83897942

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

介绍

    逻辑回归（Logistic Regression） 作为最流行的一种机器学习算法，解决的是分类问题。
    逻辑回归通过将样本特征和样本发生的概率联系起来，由于概率是一个数，所以可以称之为一个概率问题。
    在传统的回归问题中，我们获得一个函数模型 $\mathit{f}()$ ，将样本 $\mathit{x}$ 放入函数模型中后得到结果 $\hat{y}$ ，即 $\hat{y} = \mathit{f}(x)$ 。但在逻辑回归中我们通常是通过函数模型来得到一个概率 $\hat{p}$ ，即： $\hat{p} = \mathit{f}(x)$ ，然后根据概率 $\hat{p}$ 来进行分类，举个例子，以概率0.5为分界:
$\hat{y}=\left\{ \begin{array}{rcl} 1, &&{\hat{p}\geq0.5}\\ 0, &&{\hat{p}\leq0.5} \end{array}\right.$
    1和0在我们实际问题里代表不同的选项。所以逻辑回归既可以看做事回归算法，也可以看做是分类算法。通常作为分类算法用，只可以解决二分类问题。（对于多分类的问题，我们可以使用小技巧来解决，详见：预留）
    在传统的线性回归问题中，我们得到的 $\hat{y}$ 的取值一般是没有限制的，但在概率问题中，我们的概率只能在[0, 1]中取值，所以我们需要将式子 $\hat{p} = \mathit{f}(x) = \theta^{T}\cdot\mathit{x}_b$ 转换一下成为： $\hat{p} = \sigma(\theta^{T}\cdot\mathit{x}_b)$ 。其中 $\sigma(t)$ 称为Sigmoid函数： $\sigma(t)=\frac{1}{1 + e^{-t}}$ ，函数的图像为：

    我们分析一下我们的Sigmoid函数，该函数的值域是(0, 1)。当 t > 0时，p<0.5；当t<0时， p<0.5。当t = 0 时，p = 0.5 。
    回到上式 $\hat{p} = \sigma(\theta^{T}\cdot\mathit{x}_b)$ 中将 $\sigma(t)$ 替换使公式变成：

$\hat{p} = \frac{1}{1 + e^{-\theta^{T}\cdot\mathit{x}_b}}$

我们的问题也成为了：对于给定的样本数据集X,y，我们如何找到参数theta，使得用这样的方式，可以最大程度获得样本数据集X对应的分类输出y。

损失函数

我们把损失函数定义为 $c o s t$ ，推理得到：
$\hat{y}=\left\{ \begin{array}{rcl} 1, &&{\hat{p}\geq0.5}\\ 0, &&{\hat{p}\leq0.5} \end{array}\right. \qquad cost=\left\{ \begin{array}{rcl} 如果y=1,p越小,cost越大\\ 如果y=0,p越大,cost越小 \end{array}\right.$
我们可以用以下损失函数表示以上的关系：
$\hat{y}=\left\{ \begin{array}{rcl} -log(\hat{p})&&{if}&&{y=1} \\ -log(1-\hat{p})&&{if}&&{y=0} \end{array}\right. \Longrightarrow cost=-ylog(\hat{p})-(1-y)log(1-\hat{p}))$
$J(\theta)=-\frac{1}{m}\sum^m_{i=1}y^{(i)}log(\hat p ^{(i)})+(1-y^{(i)})log(1-\hat p^{(i)})$
将

函数图像如下所示：

上式没有公共解，我们只能使用梯度下降法求解。所以想要得到最优解我们需要求出该损失函数的梯度。
对上式求导得：
$\nabla J(\theta)=\frac{1}{m}\cdot \begin{pmatrix} \sum_{i=1}^{m}(\hat{y}^{(i)}-y^{(i)})\\ \sum_{i=1}^{m}(\hat{y}^{(i)}-y^{(i)})\cdot X_{1}^{(i)}\\ \sum_{i=1}^{m}(\hat{y}^{(i)}-y^{(i)})\cdot X_{2}^{(i)}\\ ...\\ \sum_{i=1}^{m}(\hat{y}^{(i)}-y^{(i)})\cdot X_{n}^{(i)}\\ \end{pmatrix}=\frac{1}{m}\cdot X^T_b\cdot (\sigma(X_b\theta)-y)$

决策边界

还是以上面的例子（ $\hat{p} = \frac{1}{1 + e^{-\theta^{T}\cdot\mathit{x}_b}}$ ）为例：
$\hat{y}=\left\{ \begin{array}{rcl} 1, &&{\hat{p}\geq0.5}&&\theta^T\cdot x_b\geq0\\ 0, &&{\hat{p}\leq0.5}&&\theta^T\cdot x_b\leq0 \end{array}\right. 决策边界：\theta^T\cdot x_b=0$
$\theta^T\cdot x_b=0$ 两个向量相乘得到的时一条直线，我们将这条直线成为该逻辑回归算法的决策边界。