逻辑回归 Logistic regression

最新推荐文章于 2024-08-27 10:36:28 发布

NorburyL

最新推荐文章于 2024-08-27 10:36:28 发布

阅读量497

点赞数

分类专栏：机器学习文章标签：逻辑回归机器学习 python

本文链接：https://blog.csdn.net/sherlocklcy/article/details/127187196

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

逻辑回归 Logistic regression

参考文献
	https://zhuanlan.zhihu.com/p/74874291

背景
- Logistic Regression 虽然被称为回归，但其实际上是分类模型，并常用于二分类。
Logistic 分布
- 一种连续型的概率分布
  $\leq x)= \frac{1}{1+e^{-(x-\mu)/\gamma}} \tag{分布函数}$
  
  $\leq x)= \frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2} \tag{密度函数}$
  - $μ$ 表示位置参数， $γ > 0$ 为形状参数
- 图像
  - Sigmoid 函数就是 Logistic 的分布函数在 $\mu=0,\gamma=1$ 的特殊形式。
- code
```
import math

import matplotlib.pyplot as plt

import numpy as np

e = math.e
mu = 0
gamma = 1
x = np.arange(-10, 10, 0.2)

# y = 1/(1+pow(e, -(x-mu)/gamma))
y = pow(e, -(x - mu) / gamma) / (gamma * pow(1 + pow(e, -(x - mu) / gamma), 2))
plt.title("f(X)")
plt.plot(x, y)

plt.show()
```
Logistic 回归
- 背景
  - Logistic 回归主要用于分类问题，我们以二分类为例，对于所给数据集假设存在这样的一条直线可以将数据完成线性可分。
- 决策边界
  $h_w(x)=w_1x_1+w_2x_2+b=0$
  - $h_w(x) > 0$ 判断 $x$ 的类别为 1，反之判断为 0。
  - 这个过程其实是感知机。
  - Logistic 回归还需要加一层，
    - 它要找到分类概率 $P (y = 1)$ 与输入向量 $x$ 的直接关系， $P (y = 1∣ x)$
    - 然后通过比较概率值来判断类别。
- 二分类问题
  - 数据集
    $D=(x_i,y_i),\\ x\subseteq R^{n}, y \in (0,1),i=1,..,N$
  - $w^Tx+b$ 的取值是连续的，它不能拟合离散变量，
    - 可以考虑用它来拟合条件概率 $p (Y = 1∣ x)$ ，因为概率的取值也是连续的。
    - 但是对于 $w \neq = 0$ （若等于零向量则没有什么求解的价值），
    - $w^Tx+b$ 取值为 $R$ ，不符合概率取值为 0 到 1，因此考虑采用广义线性模型。
      - 最理想的是单位阶跃函数，但是这个阶跃函数不可微
        $P(y=1|x)=\left\{ \begin{aligned} 0 & , & z < 0 \\ 0.5 & , & z = 0 \\ 1 & , & z > 0 \end{aligned} \right.\\ z=w^Tx+b$
        
        $P (y = 1∣ x)$ 为结点 $x$ 为1的概率。
      - 对数几率函数是一个常用的替代函数：
        $y=\frac{1}{1+e^{-(w^T+b)}}\\ ln\frac{y}{1-y}=w^T+b \tag{对数几率函数}$
        
        $y$ 为 $x$ 的标签为1的概率， $1 - y$ 为 $x$ 的标签为0的概率，二者比值为几率。
        
        将 $y$ 视为类后验概率估计，重写公式有：
        $ln\frac{P(y=1|x)}{1-P(y=1|x)}=w^T+b$
        
        $P(y=1|x)=w^Tx+b$
        
        $y$ 为 $x$ 的label
        输出 $y = 1$ 的对数几率是由输入 $x$ 的线性函数表示的模型，这就是逻辑回归模型
        
        使用对数几率的意义
        
        Logistic 回归是使用线性回归模型的预测值
        逼近分类任务真实标记的对数几率
        优点
        直接对分类的概率建模，无需实现假设数据分布，从而避免了假设分布不准确带来的问题（区别于生成式模型）；
        不仅可预测出类别，还能得到该预测的概率，这对一些利用概率辅助决策的任务很有用；
        对数几率函数是任意阶可导的凸函数，有许多数值优化算法都可以求出最优解。
  - 思路
    - 先拟合决策边界(不局限于线性，还可以是多项式)，
      $h_w(x)=w_1x_1+w_2x_2+b=0$
    - 再建立这个边界与分类的概率联系，从而得到了二分类情况下的概率。
      $P(y=1|x)=h_w(x)$
求解模型参数
- 方法
  - 在统计学中，常常使用极大似然估计法来求解，
    - 即找到一组参数，使得在这组参数下，我们的数据的似然度（概率）最大。
- 似然函数和损失函数
  - 设
    $p(x)\\ P(y=0|x)= 1-p(x)$
    - $p (x)$ 为结点 $x$ 的标签为1的概率。
    - $1 - p (x)$ 为结点 $x$ 的标签为0的概率。
  - 似然函数
    $\prod_{i=0}^n[p(x_i)]^{y_i}~[1-p(x_i)]^{1-y_i}$
  - 对数似然函数
    $\sum_{i=0}^n \Big[y_iln[p(x_i)]+(1-y_i)ln[(1-p(x_i))\Big]\\ =\sum_{i=0}^n\Big[y_iln[\frac{p(x_i)}{1-p(x_i)}]+ln[(1-p(x_i))\Big]\\ =\sum_{i=0}^n\Big[y_i(w \cdot x_i )-ln[1+e^{w\cdot x_i}]\Big]$
    - $w$ 为参数
  - 损失函数
    - 衡量的是模型预测错误的程度。如果取整个数据集上的平均对数似然损失，有：
      $\mathcal{L}(w) = -\frac{1}{n}ln(L(w))$
      - 我们最大化似然函数和最小化损失函数实际上是等价的。
  - 求解
    $\mathcal{L}(w) = -\frac{1}{n}\sum_{i=0}^n \Big[y_iln[p(x_i)]+(1-y_i)ln[(1-p(x_i))\Big]\\$
    - 梯度下降
      - 梯度下降是通过 $J (w)$ 对 $w$ 的一阶导数来找下降方向，
      - 并且以迭代的方式来更新参数，更新方式为
        $g_i = \frac{\delta\mathcal{L}(w)}{\delta w_i}=(p(x_i)-y_i)x_i\\ w^{k+1}_{i} = w^{k}_i - \alpha g_i$
        
        $k$ 为迭代次数
        $y$ 为标签
        $i$ 为参数序号
        $\alpha$ 为平衡参数
        更新参数后，可以通过比较 $||\mathcal{L}(wk+1)−\mathcal{L}(wk)||$ 小于阈值或者到达最大迭代次数来停止迭代。
    - 牛顿法
      - 在现有极小点估计值的附近对 $f (x)$ 做二阶泰勒展开，进而找到极小点的下一个估计值.
      - 需要目标函数是二阶连续可微的。
      - 假设 $w^k$ 为当前的极小值估计值，那么有：
        $\varphi(w) = \mathcal{L}(w^k) + \mathcal{L}'(w^k)(w-w^k) + \frac{1}{2}\mathcal{L}''(w^k)(w-w^k)^2$
        
        $f(x_0)+\frac{f'(x_0)}{1!}(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2+...+o[(x-x_o)^n]$
        
        令 $\varphi'(w)=0$
        $\mathcal{L}'(w^k) +\mathcal{L}''(w^k)(w-w^k)\\ w = w^k - \frac{\mathcal{L}'(w^k)}{\mathcal{L}''(w^k)}$
        
        令将 $w$ 表示为 $w^{k+1}$
        $w^{k+1} = w^k - \frac{\mathcal{L}'(w^k)}{\mathcal{L}''(w^k)}\\ = w^k-H^{-1}_k \cdot g_k$
        
        $H^{-1}_k$ 为海森矩阵，对应梯度下降法中的 $\alpha$
        $H_{mn}=\frac{\delta^2\mathcal{L}(w)}{\delta w_m\delta w_n}=h_w(x^{(i)})(1-p_w(x^{(i)}))x^{(i)}_mx^{(i)}_n$
        
        $h_w(x^{(i)})$ 类似真正的标签