逻辑回归和Softmax回归

最新推荐文章于 2024-03-03 21:33:45 发布

lynn_1900

最新推荐文章于 2024-03-03 21:33:45 发布

阅读量872

点赞数

分类专栏：机器学习文章标签：机器学习算法人工智能 python

本文链接：https://blog.csdn.net/lynn_1900/article/details/106686245

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

文章目录

1 逻辑回归 (Logistic Regression)
2 Softmax Regression

1 逻辑回归 (Logistic Regression)

虽然有"回归"两个字, 但实际上是一个二分类模型 (Bernoulli).

1.1 逻辑回归模型

模型假设
$\begin{aligned} \hat{y} = &P_{\theta}(Y=1\mid x) = \frac{1}{1+e^{-\theta^{T}x}} = g(\theta^{T}x)\\ &P_{\theta}(Y=0\mid x) = \frac{e^{-\theta^{T}x}}{1+e^{-\theta^{T}x}} = 1-g(\theta^{T}x) \end{aligned}$

其中，
$\theta=\left[\begin{matrix} \theta_{0} \\ \theta_{1} \\ \vdots \\ \theta_{n} \end{matrix}\right],\quad x=\left[\begin{matrix} 1 \\ x^{(1)} \\ \vdots \\ x^{(n)} \end{matrix}\right],\quad g(z) = \frac{1}{1+e^z}.$

不难看出
$\log\frac{P_{\theta}(Y=1\mid x)}{P_{\theta}(Y=0\mid x)} = \theta^{T}x$

所以, “逻辑回归"又称为"对数几率回归”.

# 定义sigmoid函数
def sigmoid(z):
  return 1/(1+np.exp(-z))

决策函数
$\begin{cases} 1,& P_{\theta}(Y=1\mid x)\geq0.5 \\ 0, & P_{\theta}(Y=1\mid x)<0.5 \end{cases} = \begin{cases} 1,& \theta^{T}x\geq0 \\ 0, & \theta^{T}x < 0 \end{cases}$

1.2 训练数据集

$\left[\begin{matrix}1 & x_{1}^{(1)} & \cdots & x_{1}^{(n)}\\ \vdots & \vdots & & \vdots\\ 1 & x_{m}^{(1)} & \cdots & x_{m}^{(n)} \end{matrix}\right]=\left[\begin{matrix}x_{1}^T\\ \vdots \\ x_{m}^T \end{matrix}\right],\quad y = \left[\begin{matrix}y_{1}\\ \vdots \\ y_{m} \end{matrix}\right]$

训练目标：
$\hat{y} = g(X\theta) \approx y$

1.3 对数似然函数

在独立同分布假设下，
$\begin{aligned} l(\theta) &= \log P(Y_{1}=y_{1},\cdots,Y_{m}=y_{m}\mid x_{1},\cdots,x_{m};\theta) \\ &= \log\prod_{i=1}^{m}P_{\theta}(Y_{i}=y_{i}\mid x_{i}) = \sum_{i=1}^{m}\log{P_{\theta}(Y_{i}=y_i\mid x_{i})} \\ &= \sum_{i=1}^{m}[y_{i}\log P_{\theta}(Y_{i}=1\mid x_{i}) + (1-y_{i})\log P_{\theta}(Y_{i}=0\mid x_{i})] \\ &= \sum_{i=1}^{m}[y_{i}\log\hat{y}_{i} + (1-y_{i})\log(1-\hat{y}_{i})] \\ \end{aligned}$

矩阵形式:
$l(\theta) = y^{T}\log\hat{y} + (1-y^{T})\log(1-\hat{y})$

1.4 代价函数

损失函数：
$\begin{aligned} L(\hat{y},y) &= \begin{cases} -\log P(Y=1\mid x), & y=1 \\ -\log P(Y=0\mid x), & y=0 \end{cases} \\\\ &= -\{y\log{\hat{y}} + (1-y)\log(1-\hat{y})\} \end{aligned}$
代价函数：
$J(\theta)= -\frac{1}{m}\sum_{i=1}^{m}[y_{i}\log\hat{y}_{i} + (1-y_{i})\log(1-\hat{y}_{i})] + \boxed{\frac{\lambda}{2m}\sum_{j=1}^{n}\theta_{j}^{2}}$

其中方框内为正则化项，上式可以理解为 $J(\theta):=-\frac{1}{m}l(\theta)+reg(\theta)$ .

矩阵形式：
$J(\theta) =-\frac{1}{m}[y^{T}\log \hat{y} + (1-y^{T})\log(1-\hat{y})] + \boxed{\frac{\lambda}{2m}(\mathring{E}\theta)^{T}(\mathring{E}\theta)}$

# 计算代价函数
def computeCost(theta, X, y, penalty):=
  first = -1/m * y.T @ np.log(sigmoid(X@theta))
  second = -1/m * (1-y.T)np.log(1-sogmoid(X@theta))
  reg = penalty/(2*m) * thata[1:].T @ theta[1:]
  return first + second + reg

1.5 代价函数的梯度

注意到对 Logistic 函数 $g (z)$ 有
$g^{'} (z) = g (z) (1 - g (z))$
不难得到
$\begin{aligned} \frac{\partial}{\partial \theta_{0}}J(\theta) &= \frac{1}{m}\sum\limits_{i=1}^{m}(\hat{y}_{i}-y_{i})x_{i}^{(0)} \\ \frac{\partial}{\partial \theta_{j}}J(\theta) &= \frac{1}{m}\sum\limits_{i=1}^{m}(\hat{y}_{i}-y_{i})x_{i}^{(j)} + \boxed{\frac{\lambda}{m}\sum_{j=1}^{n}\theta_{j}},\quad j=1,\cdots,n \end{aligned}$

矩阵形式:
$\frac{\partial}{\partial \theta}J(\theta)=\frac{1}{m}X^{T}(\hat{y}-y) + \boxed{\frac{\lambda}{m}\mathring{E}\theta}$

# 计算梯度
def gradient(theta, X, y, penalty):
  first = 1/m * X.T @ (sigmoid(X@theta)-y)
  reg = penalty/m * theta[1:]
  return first + reg

1.6 目标函数

$\theta^{*}=\mathop{\arg\min}_{\theta}J(\theta)$

算法批量梯度下降 (Batch Gradient Descent)

$\begin{aligned} &Repeat\ until\ convergence\{\\ &\qquad \theta := \theta - \alpha\frac{\partial}{\partial\theta}J(\theta)\\ &\} \end{aligned}$

其中, $\alpha$ 是学习速率.

# 批量梯度下降
def gradientDescent(theta, X, y, l_rate, penalty, iter):
  cost = np.zeros(n+1)
  cost[0] = computeCost(theta, X, y)
  for k in range(iter):
    theta = theta - l_rate * gradient(theta, X, y, penalty)
    cost[k] = computeCost(theta, X, y)
  return theta, cost

2 Softmax Regression

是 Logistic Regression 的推广，用于多分类 (Multinoulli)。

2.1 Softmax Regression 模型

模型假设
$\hat{y} \equiv \left[\begin{matrix} P_{\theta}(Y=1\mid \boldsymbol{x}) \\ \vdots \\ P_{\theta}(Y=K\mid \boldsymbol{x})\end{matrix}\right] = \left[\begin{matrix} softmax(W^{T}\boldsymbol{x}+\boldsymbol{b}^{T})_{1} \\ \vdots \\ softmax(W^{T}\boldsymbol{x}+\boldsymbol{b}^{T})_{K} \end{matrix}\right]$
其中，
$\begin{aligned} W^{T} = \left[\begin{matrix} w^{(1)T} \\ \vdots \\ w^{(K)T}\end{matrix}\right] &= \left[\begin{matrix} w_{1}^{(1)} & \cdots &w_{n}^{(1)} \\ \vdots &\ddots & \vdots \\ w_{1}^{(K)} & \cdots &w_{n}^{(K)} \\ \end{matrix}\right], \ \boldsymbol{x} = \left[\begin{matrix} x^{(1)} \\ \vdots \\ x^{(n)} \end{matrix}\right], \ \boldsymbol{b}^{T} = \left[\begin{matrix} b^{(1)} \\ \vdots \\ b^{(K)}\end{matrix}\right], \\\\ &softmax(\boldsymbol{z})_{k} = \frac{e^{z^{(k)}}}{\sum_{j}e^{z^{(j)}}},\ k=1,\cdots,K \end{aligned}$
决策函数
$\arg\max_{k}\hat{y}^{(k)}$

2.2 训练数据集

$=\left[\begin{matrix} \boldsymbol{x}_{1}^T\\ \vdots \\ \boldsymbol{x}_{m}^T \end{matrix}\right] =\left[\begin{matrix}x_{1}^{(1)} & \cdots & x_{1}^{(n)}\\ \vdots & & \vdots\\ x_{m}^{(1)} & \cdots & x_{m}^{(n)} \end{matrix}\right],\quad Y = \left[\begin{matrix} \boldsymbol{y}_{1}^{T}\\ \vdots \\ \boldsymbol{y}_{m}^{T} \end{matrix}\right] = \left[\begin{matrix} y_{1}^{(1)} & \cdots & y_{1}^{(K)}\\ \vdots & & \vdots\\ y_{m}^{(1)} & \cdots & y_{m}^{(K)} \end{matrix}\right]$

记
$Z = X W + b$
训练目标：
$\hat{Y} = g(Z) \approx Y$

2.3 对数似然函数

在独立同分布假设下，
$\begin{aligned} l(\Theta) &= \log{P(Y=\boldsymbol{y}\mid \boldsymbol{x},\Theta)}\\ &= \log\prod_{i=1}^{m}P_{\Theta}(Y_{i}=\boldsymbol{y}_{i}\mid \boldsymbol{x}_{i}) = \sum_{i=1}^{m}\log{P_{\Theta}(Y_{i}=\boldsymbol{y}_i\mid \boldsymbol{x}_{i})} \\ &= \sum_{i=1}^{m}\sum_{k=1}^{K}y_{i}^{(k)}\log\hat{y}_{i}^{(k)} = \boldsymbol{y}^{T}\log{\hat{\boldsymbol{y}}} \\ \end{aligned}$

2.4 代价函数

每个样本的损失函数：
$\begin{aligned} L(\hat{\boldsymbol{y}}, \boldsymbol{y}) &= -\log{P(Y=\boldsymbol{y}\mid \boldsymbol{x})} =-\boldsymbol{y}^{T}\log{\hat{\boldsymbol{y}}} \end{aligned}$
训练集上的代价函数：
$\begin{aligned} J(\Theta) &= \frac{1}{m}\sum_{i=1}^{m}L(\hat{\boldsymbol{y}}_{i},\boldsymbol{y}_{i}) + \frac{\lambda}{2m}||W||^{2} \\ &= - \frac{1}{m}\sum_{i=1}^{m}\boldsymbol{y}_{i}^{T}\log\hat{\boldsymbol{y}}_{i} + \frac{\lambda}{2m}||W||^{2} \\ &= - \frac{1}{m}\sum_{i=1}^{m}\sum_{k=1}^{K}y_{i}^{(k)}\log\hat{y}_{i}^{(k)} + \frac{\lambda}{2m}\sum_{j=1}^{n}\sum_{k=1}^{K}(w_{j}^{(k)})^{2} \end{aligned}$
矩阵形式：
$J(\Theta) = -\frac{1}{m}{\bf1}_{1\times m}(Y\otimes\log{\hat{Y}}){\bf1}_{K\times1} + \frac{\lambda}{2m}||W||^{2}$

2.5 代价函数的梯度

Step1
$\begin{aligned} \frac{\partial J(\Theta)}{\partial \hat{y}_{i}^{(j)}} &= -\frac{1}{m}\frac{y_{i}^{(j)}}{\hat{y}_{i}^{(j)}},\quad i=1,\cdots,m,\ j=1,\cdots, K \end{aligned}$

且由 softmax 函数性质知：
$\frac{\partial \hat{y}_{i}^{(j)}}{\partial z_{i}^{(k)}(L)} = \begin{cases} \hat{y}_{i}^{(j)}(1-\hat{y}_{i}^{(j)}), & j=k \\ -\hat{y}_{i}^{(j)}\hat{y}_{i}^{(k)}, &j\neq k\end{cases}$

所以：
$\begin{aligned} \frac{\partial}{\partial z_{i}^{(k)}(L)}J(\Theta) &= \sum_{j=1}^{K}\frac{\partial J(\Theta)}{\partial \hat{y}_{i}^{(j)}}\frac{\partial \hat{y}_{i}^{(j)}}{z_{i}^{(k)}(L)} \\ &= -\frac{1}{m}y_{i}^{(k)}(1-\hat{y}_{i}^{(k)}) + \frac{1}{m}\sum_{j\neq k}y_{i}^{(j)}\hat{y}_{i}^{(k)} \\ &= \frac{1}{m}\left(\hat{y}_{i}^{(k)}-y_{i}^{(k)}\right),\ i=1,\cdots,m,\ k=1,\cdots, K \end{aligned}$

矩阵形式：
$\checkmark\quad \frac{\partial J(\Theta)}{\partial Z(L)} = \frac{1}{m}(\hat{Y}-Y)$

Step2

不难得到
$\begin{aligned} \frac{\partial}{\partial w_{j}^{(k)}}J(\Theta) &= \sum_{i=1}^{m}\frac{\partial J(\Theta)}{\partial z_{i}^{(k)}}\frac{\partial z_{i}^{(k)}}{\partial w_{j}^{(k)}} + \frac{\lambda}{m}w_{j}^{(k)} \\ &=\frac{1}{m}\sum_{i=1}^{m} (y_{i}^{(k)}-\hat{y}_{i}^{(k)})x_{i}^{(j)} + \frac{\lambda}{m}w_{j}^{(k)} \\\\ \frac{\partial}{\partial b^{(k)}}J(\Theta) &= \sum_{i=1}^{m}\frac{\partial J(\Theta)}{\partial z_{i}^{(k)}}\frac{\partial z_{i}^{(k)}}{\partial b^{(k)}} =\frac{1}{m}\sum_{i=1}^{m} (y_{i}^{(k)}-\hat{y}_{i}^{(k)})\\ \end{aligned}$

矩阵形式:
$\frac{\partial}{\partial W}J(\Theta) = \frac{1}{m}X^{T}(Y-\hat{Y}) + \frac{\lambda}{m}W\\ \frac{\partial}{\partial b}J(\Theta) = \frac{1}{m}(Y-\hat{Y})\\$

2.6 目标函数

$\Theta^{*}=\mathop{\arg\min}_{\Theta}J(\Theta)$

算法批量梯度下降 (Batch Gradient Descent)

$\begin{aligned} &Repeat\ until\ convergence\{\\ &\qquad W := W - \alpha\frac{\partial}{\partial W}J(\Theta)\\ &\qquad b := b - \alpha\frac{\partial}{\partial b}J(\Theta)\\ &\} \end{aligned}$

其中, $\alpha$ 是学习速率.

lynn_1900

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归和Softmax回归

逻辑回归 Logistic Regression1 逻辑回归 (Logistic Regression)1.1 数据 (Data)1.2 假设 (Hypothesis)1.3 对数似然函数 (Log Likelihood)1.4 代价函数 (Cost Function)1.5 代价函数的梯度 (Gradient)1.6 目标函数 (Goal)1.7 求解 θ∗\theta^*θ∗算法1 批量梯度下降 (Batch Gradient Descent)算法2 优化算法1.8 决策函数 (Decision Fun
复制链接

扫一扫