机器学习算法（回归）总结与深度解析——模型表达、目标函数、求解算法、正则化、Ridge回归、Lasso回归、Logistic回归、Softmax回归、梯度下降算法

最新推荐文章于 2021-11-22 23:29:02 发布

GladyoUcaMe

最新推荐文章于 2021-11-22 23:29:02 发布

阅读量1.2k

点赞数

分类专栏：总结机器学习算法文章标签：回归梯度下降对数线性模型 LR Softmax

本文链接：https://blog.csdn.net/github_38486975/article/details/89737699

版权

总结同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

机器学习算法

3 篇文章 0 订阅

订阅专栏

以线性回归模型为例，讨论两种不同的训练方法来得到模型的最优解：

直接求解参数的解析式的解，得到模型在当前训练集上的最优参数（即在训练集上
使损失函数达到最小值的模型参数）
使用迭代优化方法：梯度下降（GD），在训练集上，它可以逐渐调整模型参数以获得最
小的损失函数，最终，参数会收敛到和第一种方法相同的的值。

同时，介绍一些梯度下降的变体形式：批量梯度下降（Batch GD）、小批量梯度下降（Mini-batch
GD）、随机梯度下降（Stochastic GD），在神经网络部分，会多次使用它们。

接下来，上升到一般回归模型：多项式回归，它可以拟合非线性数据集（非线性特征的线性组合），由于它比线性模型拥有更多的参数，于是它更容易出现模型的过拟合。因此，我们将介绍如何通过学习曲线去判断模型是否出现了过拟合，并介绍几种正则化方法以减少模型出现过拟合的风险。

最后，我们将介绍两个常用于分类的模型：Logistic回归和Softmax回归
理解要点：模型+策略+算法。
回归目录

回归模型（模型+策略+算法）

模型表达（模型）

表达式子：
$h_{\theta}(x)=\theta_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}+...+\theta_{n} x_{n}$

$h_{\theta}(x)$ 表示预测结果
$n$ 表示特征的个数
$x_{i}$ 表示第 i 个特征的值
$\theta_{j}$ 表示第 j个参数（包括偏置项 $\theta_{0}$ 和特征权重值 $\theta_{1}$ , $\theta_{n}$ ）

向量表示：
$h_{\theta}(x)=\sum_{i=0}^{n} \theta_{i} x_{i}=\theta^{T} \mathbf{x}$

$\theta_{}$ 表示模型的参数向量包括偏置项 $\theta_{0}$ 和特征权重值 $\theta_{1}$ 到 $\theta_{n}$
$\theta^T$ 表示向量的转置
$\mathbf{x}$ 为每个样本中特征值的向量形式，包括 $x_{1}$ 到 $x_{n}$ ，而且 $x_{0}$ 恒为 1
$\theta^{T} \mathbf{x}$ 表示 $\theta^{T}$ 和 $\mathbf{x}$ 的点积
$h_{\theta}(x)$ 表示假设模型参数为 $\theta$ 时的预测结果

怎么样去训练一个线性回归模型呢？（策略）

损失函数

训练一个模型指的是设置模型的参数使得这个模型在训练集的表现较好。为此，我们首先需要找到一个衡量模型好坏的评定方法。最常见的评定标准是均方根误差（RMSE）。因此，为了训练一个线性回归模型，你需要找到一个值，它使得均方根误差（标准误差）达到最小值。
实践过程中，最小化均方误差比最小化均方根误差更加的简单，这两个过程会得到相同的，因为函数在最小值时候的自变量，同样能使函数的方根运算得到最小值。
MSE 损失函数(最小二乘法)：
$\operatorname{MSE}\left(\mathbf{x}, h_{\theta}\right)=\frac{1}{m} \sum_{i=1}^{m}\left(\theta^{T} \cdot \mathbf{x}^{(i)}-y^{(i)}\right)^{2}$

$m$ 是计算MSE的数据集中的实例数量。
$\mathbf{x}^{(i)}$ 是数据集第 $i$ 个实例的所有特征值（不包含标签）的向量， $y^{(i)}$ 是它的标签（这个实例的输出值）。
本质还是最小二乘法：
$J(\theta)=\frac{1}{2} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}$

使用极大似然估计解释最小二乘

对于第i个实例引入误差的表达式如下：
$y^{(i)}=\theta^{T} x^{(i)}+\varepsilon^{(i)}$
由中心极限定理， $\varepsilon^{(i)}(i=1,2,...,m)$ ,是独立同分布的，服从均值为0，方差为某定值 $\sigma^{2}$ 的高斯分布。
似然函数表达式：
$p\left(\epsilon^{(i)}\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(\epsilon^{(i)}\right)^{2}}{2 \sigma^{2}}\right)$
进一步表达，如果已知 $\theta$ 则模型确定,给定第 $i$ 个实例的输入 $x^{(i)}$ ，就会得到输出 $y^{(i)}$ 的一个分布，其概率密度函数如下：
$p\left(y^{(i)} | x^{(i)} ; \theta\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right)$
接下来，引入极大似然估计，写出似然函数：
$L(\theta)=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right)=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right)$
对数似然表达：
$\begin{aligned} \ell(\theta) &=\log L(\theta) \\ &=\log \prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \\ &=\sum_{i=1}^{m} \log \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \\ &=m \log \frac{1}{\sqrt{2 \pi} \sigma}-\frac{1}{\sigma^{2}} \cdot \frac{1}{2} \sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2} \end{aligned}$
最大似然的目的式，求解使得 $\ell(\theta)$ 最大的 $\theta$ ,进一步化简等效与求： $J(\theta)=\frac{1}{2} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}$ 的最小值，上式就是最小二乘法的目标函数。

如何求解最小二乘的参数θ？（算法）

参数θ的解析式的求解过程

目标函数的向量表达：
$J(\theta)=\frac{1}{2} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}=\frac{1}{2}(X \theta-y)^{T}(X \theta-y)$
梯度解析式：
$\begin{array} {l}{\nabla_{\theta} J(\theta)=\nabla_{\theta}\left(\frac{1}{2}(X \theta-y)^{T}(X \theta-y)\right)=\nabla_{\theta}\left(\frac{1}{2}\left(\theta^{T} X^{T}-y^{T}\right)(X \theta-y)\right)} \end{array}$

$\\ {=\nabla_{\theta}\left(\frac{1}{2}\left(\theta^{T} X^{T} X \theta-\theta^{T} X^{T} y-y^{T} X \theta+y^{T} y\right)\right)}$

$=\frac{1}{2}\left(2 X^{T} X \theta-X^{T} y-\left(y^{T} X\right)^{T}\right)=X^{T} X \theta-X^{T} y$

上式推到过程涉及正交阵求导等线性代数知识，建议亲自推导。
问题转化为直接求上式的驻点，得到最优参数 $\theta.$

最小二乘意义下的参数最优解

参数解释式： $\theta=\left(X^{T} X\right)^{-1} X^{T} y$

这就是著名的线性回归求解模型参数 $\theta$ 的解析解表达，为了方便记忆，可以记住：
$\theta=y \Rightarrow X^{T} X \theta=X^{T} y$

简单变化，提出 $\theta$ 到等式左边：

$\Rightarrow \theta=\left(X^{T} X\right)^{-1} X^{T} y$
若 $X^{T} X$ 不可逆或者防止过拟合，在主对角线增加扰动 $\lambda$ :

$\theta=\left(X^{T} X+\lambda I\right)^{-1} X^{T} y$
为什么这么做往下看线性回归的复杂度惩罚因子。

梯度下降算法

线性回归模型的损失函数是凸函数，这个最优参数一定在‘碗’的底部。

目标函数的向量表达：

$J(\theta)=\frac{1}{2} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}$

一般步骤

初始化 $\theta$ (随机初始化)
沿着负梯度方向迭代，更新后的 $\theta$ 使 $J(\theta)$ 更小，不强调全局最优，但求局部最优即可。 $\theta=\theta-\alpha \cdot \frac{\partial J(\theta)}{\partial \theta}$ 其中， $\alpha$ 是学习率，步长

梯度方向

对推到出梯度表达式：
$\begin{aligned} \frac{\partial}{\partial \theta_{j}} J(\theta) &=\frac{\partial}{\partial \theta_{j}} \frac{1}{2}\left(h_{\theta}(x)-y\right)^{2} \\ &=2 \cdot \frac{1}{2}\left(h_{\theta}(x)-y\right) \cdot \frac{\partial}{\partial \theta_{j}}\left(h_{\theta}(x)-y\right) \\ &=\left(h_{\theta}(x)-y\right) \cdot \frac{\partial}{\partial \theta_{j}}\left(\sum_{i=0}^{n} \theta_{i} x_{i}-y\right) \\ &=\left(h_{\theta}(x)-y\right) x_{j} \end{aligned}$

批量梯度下降

计算所有的样本后下降一次： $\begin{array}{l}{\text { Loop }\{ } \\ {\quad} \\ {\quad \theta_{j} :=\theta_{j}+\alpha \sum_{i=1}^{m}\left(y^{(i)}-h_{\theta}\left(x^{(i)}\right)\right) x_{j}^{(i)}} \\ {\}}\end{array}$

SGD随机梯度下降

来一个样本就下降： $\begin{array}{l}{\text { Loop }\{ } \\ {\quad \theta_{j} :=1 \text { to } \mathrm{m},\{ } \\ {\quad \theta_{j} :=\theta_{j}+\alpha\left(y^{(i)}-h_{\theta}\left(x^{(i)}\right)\right) x_{j}^{(i)}} \\ {\}}\end{array}$

小批量梯度下降

一旦你理解了批量梯度下降和随机梯度下降，再去理解小批量梯度下降是非常简单的。在迭代的每一步，批量梯度使用整个
训练集，随机梯度时候用仅仅一个实例，在小批量梯度下降中，它则使用一个随机的小型实例集。
目前大家说的随机梯度下降都是指的小批量梯度下降。

参数空间的梯度下降路径

小批量梯度下降在参数空间上的表现比随机梯度下降要好的多，尤其在有大量的小型实例集时。作为结果，小批量梯度下降会比随机梯度更靠近最小值。但是，另一方面，它有可能陷在局部最小值中（在遇到局部最小值问题的情况下，和我们之前看到的线性回归不一样）。
下图显示了训练期间三种梯度下降算法在参数空间中所采用的路径。
参数空间的梯度下降路径
他们都接近最小值，但批量梯度的路径最后停在了最小值，而随机梯度和小批量梯度最后都在最小值附近摆动。
但是，批次梯度需要花费大量时间来完成每一步，往往随机梯度和小批量梯度也可以得到最小值。

早期停止

随着随机和小批量梯度下降，曲线不那么光滑，可能很难知道你是否达到了最小值。一种解决方案是，只在验证错误超过最小值一段时间之后停止(当您确信模型不会做得更好时)，然后将模型参数回滚到验证错误最小值的位置。

注意标准化

当我们使用梯度下降的时候，应该确保所有的特征有着相近的尺度范围（例如：使用Scikit Learn 的 StandardScaler 类），否则它将需要很长的时间才能够收敛。

线性回归的复杂度惩罚因子

线性回归的目标函数：
$J(\theta)=\frac{1}{2} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}$

增加平方和损失：
$J(\theta)=\frac{1}{2} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+\lambda \sum_{j=1}^{m}\theta_{j}^2$
本质即假设参数 $\theta$ 服从高斯分布。

L1和L2正则

上式的 $\lambda \sum_{j=1}^{m}\theta_{j}^2$ 是正则项，称为L2正则。如果 $\lambda$ 取0，对应标准线性回归； $\lambda$ 取非零正数，对应岭回归（Ridge Regression）。

在使用岭回归前，对数据进行放缩（可以使用 StandardScaler ）是非常重要的，算法对于输入特征的数值尺度（scale）非常敏感。大多数的正则化模型都是这样的。

如果正则项换作： $\lambda \sum_{j=1}^{m}\mid\theta_{j}\mid$ ，称为L1正则，此目标函数对应Lasso回归。

Ridge 回归和 Lasso 回归对比

Lasso 回归的一个重要特征是它倾向于完全消除最不重要的特征的权重（即将它们设置为零）。换句话说，Lasso回归自动的进行特征选同时输出一个稀疏模型（即，具有很少的非零权重）。
你可以从下图知道为什么会出现这种情况：
Ridge 回归和 Lasso 回归对比
左上角图中，后背景的等高线（椭圆）表示了没有正则化的均方差损失函数（ $\lambda=0$ ），白色的小圆点表示在当前损失函数上批量梯度下降的路径。前背景的等高线（菱形）表示L1惩罚，黄色的三角形表示了仅在这个惩罚下批量梯度下降的路径（ $\lambda\rightarrow\infty$ ）。注意路径第一次是如何到达 $\theta_1=0$ ，然后向下滚动直到它到达 $\theta_2=0$ 。

右上角图中，等高线表示的是相同损失函数再加上一个 $\lambda=0.5$ 的惩罚。这幅图中，它的全局最小值在 $\theta_2=0$ 这根轴上。批量梯度下降首先到达 $\theta_2=0$ ，然后向下滚动直到达到全局最小值。

在 Lasso 损失函数中，批量梯度下降的路径趋向于在低谷有一个反弹的轨迹形式。这是因为在 $\theta_2=0$ 时斜率会有一个突变。为了最后真正收敛到全局最小值，你需要逐渐的降低学习率。
Lasso 损失函数上进行梯度下降，使用的是 $\theta_i$ 不为零的子梯度向量。

下面两个图显示了相同的情况，只是使用了L2惩罚。 L2正则后的 $\theta$ 中的最小值可能会很接近于零，但始终不会为零。

ElasticNet弹性网络

弹性网络介于 Ridge 回归和 Lasso 回归之间。它的正则项是 Ridge 回归和 Lasso 回归正则项的简单混合，同时你可以控制它们的混合率 $r$ ，当 $r = 0$ 时，弹性网络就是 Ridge 回归，当 $r = 1$ 时，其就是 Lasso 回归。
具体表示如下：
$J(\theta)=M S E(\theta)+r \lambda \sum_{i=1}^{n}\left|\theta_{i}\right|+\frac{1-r}{2} \lambda \sum_{i=1}^{n} \theta_{i}^{2}$

L1正则化如何处理梯度

$\theta_i=0$ 处，Lasso 损失函数不可微，进行梯度下降时，使用的是 $\theta_i$ 不为零的子梯度 $g(\theta, J)$ :
$g(\theta, J)=\nabla_{\theta} \operatorname{MSE}(\theta)+\lambda \left( \begin{array}{c}{\operatorname{sign}\left(\theta_{1}\right)} \\ {\operatorname{sign}\left(\theta_{2}\right)} \\ {\vdots} \\ {\operatorname{sign}\left(\theta_{n}\right)}\end{array}\right) \text { where sign }\left(\theta_{i}\right)=\left\{\begin{array}{l}{-1 \text { if } \theta_{i}<0} \\ {0 \quad \text { if } \theta_{i}=0} \\ {+1 \text { if } \theta_{i}>0}\end{array}\right.$
引入可导的近似函数
目标函数： $J(\vec{\theta})=\frac{1}{2} \sum_{i=1}^{m}\left(h_{\tilde{\theta}}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+\lambda \sum_{j=1}^{n}\left|\theta_{j}\right|$

给定近似与L1正则的可导函数： $\alpha)=x+\frac{1}{\alpha} \log (1+\exp (-\alpha x)), x \geq | 0$

如何近似？ $\approx f(x ; \alpha)+f(-x ; \alpha)=\frac{1}{\alpha} \log (1+\exp (-\alpha x)+1+\exp (\alpha x))$

梯度表达： $\nabla|x| \approx \frac{1}{1+\exp (-\alpha x)}-\frac{1}{1+\exp (\alpha x)}$

二阶导： $\nabla^{2}|x| \approx \frac{2 \alpha \exp (\alpha x)}{(1+\exp (\alpha x))^{2}}$

实践中，对于一般问题，如取一个较大的 $\alpha=10^{6}$ 。

超参与过拟合感知

交叉验证

使用交叉验证来估计一个模型的泛化能力。如果一个模型在训练集上表现良好，通过交叉验证指标却得出其泛化能力很差，那么你的模型就是过拟合了。如果在这两方面都表现不好，那么它就是欠拟合了。这种方法可以告诉我们，你的模型是太复杂还是太简单了。如果你的模型在训练集上是欠拟合的，添加更多的样本是没用的。你需要使用一个更复杂的模型或者找到更好的特征。

拟合曲线

另一种方法是观察学习曲线：画出模型在训练集上的表现，同时画出以训练集规模为自变量的训练集函数。为了得到图像，需要在训练集的不同规模子集上进行多次训练。下面的代码定义了一个函数，用来画出给定训练集后的模型学习曲线：

from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
def plot_learning_curves(model, X, y):
	X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2)
	train_errors, val_errors = [], []
	for m in range(1, len(X_train)):
		model.fit(X_train[:m], y_train[:m])
		y_train_predict = model.predict(X_train[:m])
		y_val_predict = model.predict(X_val)
		train_errors.append(mean_squared_error(y_train_predict, y_train[:m]))
		val_errors.append(mean_squared_error(y_val_predict, y_val))
plt.plot(np.sqrt(train_errors), "r-+", linewidth=2, label="train")
plt.plot(np.sqrt(val_errors), "b-", linewidth=3, label="val")

外部评价指标

拟合优度 $R^2$ :
$R^{2}=1-\frac{R S S}{T S S}=1-\frac{\sum_{i=1}^{m}\left(\hat{y}_{i}-y_{i}\right)^{2}}{\sum_{i=1}^{m}\left(y_{i}-\overline{y}\right)^{2}}$

$R^2$ 越大，拟合效果越好
$R^2$ 最优值为1，说明模型完美拟合（预测值等于实际值）
$R^2$ 最优值为0，说明用模型和用样本均值直接估计效果一样
$R^2$ 最优值为负数，说明用模型效果比较差，还不如用样本均值直接估计

用于回归模型解决分类问题

Logistic回归

模型表达（模型）

Logistic/Sigmoid函数： $g(z)=\frac{1}{1+e^{-z}}$

令 $\theta^{T} x$ 得到Logistic回归模型表达:
$h_{\theta}(x)=g\left(\theta^{T} x\right)=\frac{1}{1+e^{-\theta^{T} x}}$

回顾一下Logistic/Sigmoid函数导数：
$\begin{array}{l}{g^{\prime}(x)=\left(\frac{1}{1+e^{-x}}\right)^{\prime}=\frac{e^{-x}}{\left(1+e^{-x}\right)^{2}}} =\frac{1}{1+e^{-x}} \cdot \frac{e^{-x}}{1+e^{-x}}=\frac{1}{1+e^{-x}} \cdot\left(1-\frac{1}{1+e^{-x}}\right){=g(x) \cdot(1-g(x))}\end{array}$

模型参数估计（策略）

假定： $\begin{array}{l}{P(y=1 | x ; \theta)=h_{\theta}(x)} \\ {P(y=0 | x ; \theta)=1-h_{\theta}(x)}\end{array}$

合并两式得到如下形式：
$\theta)=\left(h_{\theta}(x)\right)^{y}\left(1-h_{\theta}(x)\right)^{1-y}$

写出最大似然估计的似然函数：
$\begin{aligned} L(\theta) &=p(\vec{y} | X ; \theta) \\ &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) \\ &=\prod_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)\right)^{y^{(i)}}\left(1-h_{\theta}\left(x^{(i)}\right)\right)^{1-y^{(i)}} \end{aligned}$
两边取对数得到对数似然：
$\begin{aligned} \ell(\theta) &=\log L(\theta) \\ &=\sum_{i=1}^{m} y^{(i)} \log h\left(x^{(i)}\right)+\left(1-y^{(i)}\right) \log \left(1-h\left(x^{(i)}\right)\right) \end{aligned}$
目标函数就是上式，求 $\theta$ 使得释然函数最大。

参数的学习规则（算法）

参数迭代（沿梯度增量迭代（梯度向上））。
参数迭代前需要求解目标函数对 $\theta$ 的梯度表达式，对每一个 $\theta_j$ 求偏导，实现对 $\theta$ 求导：
$\begin{aligned} \frac{\partial}{\partial \theta_{j}} \ell(\theta) &=\left(y \frac{1}{g\left(\theta^{T} x\right)}-(1-y) \frac{1}{1-g\left(\theta^{T} x\right)}\right) \frac{\partial}{\partial \theta_{j}} g\left(\theta^{T} x\right) \\ &=\left(y \frac{1}{g\left(\theta^{T} x\right)}-(1-y) \frac{1}{1-g\left(\theta^{T} x\right)}\right) g\left(\theta^{T} x\right)\left(1-g\left(\theta^{T} x\right)\right) \frac{\partial}{\partial \theta_{j}} \theta^{T} x \\ &=\left(y\left(1-g\left(\theta^{T} x\right)\right)-(1-y) g\left(\theta^{T} x\right)\right) x_{j} \\ &=\left(y-h_{\theta}(x)\right) x_{j} \end{aligned}$

Logistic回归的学习规则：
$\theta_{j} :=\theta_{j}+\alpha\left(y^{(i)}-h_{\theta}\left(x^{(i)}\right)\right) x_{j}^{(i)}$
线性回归可以用解析解，这里 $h_{\theta}(x^{(i)})$ 是 $\theta)$ ,没有解析解，只能迭代求解。
注意这里参数迭代部分是加号 $+$ ,所以是（梯度向上）方向迭代的，也可以叫梯度下降，本质上升。

对数线性模型

一个事件的几率Odds，是指该事件发生的概率与该事件不发生的概率的比值。
对数几率：logit函数
$\begin{array}{l}{P(y=1 | x ; \theta)=h_{\theta}(x)} \\ {P(y=0 | x ; \theta)=1-h_{\theta}(x)}\end{array}$

$\log i t(p)=\log \frac{p}{1-p}=\log \frac{h_{\theta}(x)}{1-h_{\theta}(x)}=\log \left(\frac{\frac{1}{1+e^{-\theta^{T} x}}}{\frac{e^{-\theta^{T} x}}{1+e^{-\theta^{T} x}}}\right)=\theta^{T} x$
根据结果，也是关于特征的线性组合形式，所以说Logistic回归属于广义线性模型，属于线性模型。

其他策略（损失函数角度）

对于二分类问题： $y_{i} \in\{0,1\}$

$\hat{y}_{i}=\left\{\begin{array}{c}{p_{i} \quad y_{i}=1} \\ {1-p_{i} \quad y_{i}=0}\end{array}\right.$
似然概率函数到对数似然的表达式：
$\begin{array}{l}{L(\theta)=\prod_{i=1}^{m} p_{i}^{y_{i}}\left(1-p_{i}\right)^{1-y_{i}}} {\Rightarrow l(\theta)=\sum_{i=1}^{m} \ln \left[p_{i}^{y_{i}}\left(1-p_{i}\right)^{1-y_{i}}\right]}\end{array}$

令 $p_{i}=\frac{1}{1+e^{-f_{i}}}$ ，表示为Sigmoid函数形式， $f_i$ 是Sigmoid输入，得到： $l(\theta)=\sum_{i=1}^{m} \ln \left[\left(\frac{1}{1+e^{-f_{i}}}\right)^{y_{i}}\left(\frac{1}{1+e^{f_{i}}}\right)^{1-y_{i}}\right]$
习惯上损失函数越小越好，所以损失函数为似然函数的相反数（负对数似然NLL）：
$\begin{array}{l}{\operatorname{loss}\left(y_{i}, \hat{y}_{i}\right)=-l(\theta)} {=\sum_{i=1}^{m}\left[y_{i} \ln \left(1+e^{-f_{i}}\right)+\left(1-y_{i}\right) \ln \left(1+e^{f_{i}}\right)\right]}\end{array}$

Softmax回归

K分类问题，通过Logistic拓展，参数数量增加K-1倍。
概率（模型表达）：
$\theta)=\frac{\exp \left(\theta_{k}^{T} x\right)}{\sum_{l=1}^{K} \exp \left(\theta_{l}^{T} x\right)}, \quad k=1,2, \cdots, K$

似然函数： $J_{m}(\theta)=\ln L(\theta)=\sum_{i=1}^{m} \sum_{k=1}^{K}\left(y_{k}^{(i)} \cdot \theta_{k}^{T} x^{(i)}-\ln \sum_{l=1}^{K} \exp \left(\theta_{l}^{T} x^{(i)}\right)\right)$

对数似然（策略，目标函数）： $L(\theta)=\prod_{i=1}^{m} \prod_{k=1}^{K} p\left(c=k | x^{(i)} ; \theta\right)^{\gamma_{k}^{(i)}}=\prod_{i=1}^{m} \prod_{k=1}^{K} \frac{\exp \left(\theta_{k}^{T} x^{(i)}\right)^{\gamma_{k}^{(i)}}}{\sum_{l=1}^{K} \exp \left(\theta_{l}^{T} x^{(i)}\right)}$

$J(\theta)=\sum_{k=1}^{K} y_{k} \cdot\left(\theta_{k}^{T} x-\ln \sum_{l=1}^{K} \exp \left(\theta_{l}^{T} x\right)\right)$
梯度表达： $\frac{\partial J(\theta)}{\partial \theta_{k}}=\left(y_{k}-p\left(y_{k} | x ; \theta\right)\right) \cdot x$
采用随机梯度下降，做参数求解（算法）