【机器学习导引】ch3-线性模型-CSDN博客

本文链接：https://blog.csdn.net/weixin_42932602/article/details/142546734

线性回归

梯度

在数学中，对于函数 $f(x_1, \ldots, x_m)$ 在点 $(a_1, \ldots, a_m)$ 处的梯度被定义为：

$\nabla f(a) = \left( \frac{\partial f}{\partial x_1}(a), \ldots, \frac{\partial f}{\partial x_m}(a) \right)$

这里， $\nabla f(a)$ 表示在点 $a$ 处函数 $f$ 的梯度，它由函数 $f$ 对其各变量 $x_1, \ldots, x_m$ 的偏导数构成的向量表示。梯度向量指向函数 $f$ 在 $a$ 点处增长最快的方向，其大小表示该方向上的增长率。

函数	梯度
$x_1 + x_2$	$(1, 1)$
$x_1^2 + x_2$	$2x_1, 1)$
$x_1^2 x_2$	$2x_1 x_2, x_1^2)$
$sin x_1 \cos x_2$	$cos x_1 \cos x_2, -\sin x_1 \sin x_2)$

最小二乘法

在这里插入图片描述

用于拟合数据模型，尤其是在回归分析中。这是一种优化技术，目的是找到模型参数的最佳估计，使得预测值与实际数据之间的误差平方和最小。

表达式解释：

$(w^*, b^*) = \arg\min_{(w, b)} \sum_{i=1}^m (y_i - f(x_i))^2$

其中 $f(x_i) = wx_i + b$ 是线性模型， $y_i$ 是第 $i$ 个观测值， $x_i$ 是第 $i$ 个自变量。

最小二乘法的目的：

寻找系数 $w$ 和截距 $b$ ，使得模型预测值 $f(x_i) = wx_i + b$ 与实际值 $y_i$ 之间的差异平方和最小。
$\sum_{i=1}^m (wx_i + b - y_i)^2$ 表示所有数据点的预测误差的平方和。

要找到使 $E (w, b)$ 最小的 $w$ 和 $b$ ，通常需要计算误差函数 $E (w, b)$ 对 $w$ 和 $b$ 的偏导数，并将这些偏导数设为零。这个过程可以找到局部最小值，因为设置偏导数为零可以帮助我们找到梯度为零的点，即函数的可能极小值点。

计算步骤：

对 $w$ 的偏导:

$\frac{\partial E}{\partial w} = \frac{\partial}{\partial w} \sum_{i=1}^m (wx_i + b - y_i)^2 = \sum_{i=1}^m 2(wx_i + b - y_i)x_i$

设 $\frac{\partial E}{\partial w} = 0$ 求解 $w$ 。
对 $b$ 的偏导:

$\frac{\partial E}{\partial b} = \frac{\partial}{\partial b} \sum_{i=1}^m (wx_i + b - y_i)^2 = \sum_{i=1}^m 2(wx_i + b - y_i)$

设 $\frac{\partial E}{\partial b} = 0$ 求解 $b$ 。
斜率 $w$ 的计算公式：

$\frac{\sum_{i=1}^m y_i(x_i - \bar{x})}{\sum_{i=1}^m x_i^2 - m\bar{x}^2}$
- 这里， $\bar{x}$ 是 $x_i$ 的平均值。
- 分子部分 $\sum_{i=1}^m y_i(x_i - \bar{x})$ 表示 $x_i$ 与其平均值之差与相应的 $y_i$ 值的乘积之和。
- 分母部分 $\sum_{i=1}^m x_i^2 - m\bar{x}^2$ 是修正的 $x_i$ 值的平方和。
截距 $b$ 的计算公式：

$\bar{y} - w\bar{x}$
- $\bar{y}$ 是 $y_i$ 的平均值。
- 这个公式表明截距是 $y$ 的平均值减去斜率乘以 $x$ 的平均值。

这些公式为线性回归模型提供了一种快速计算参数的方法，可以有效地帮助理解和预测变量间的线性关系。

应用背景：

最小二乘法非常适合于处理线性关系的数据，常用于经济学、生物统计学、工程等领域。
可以帮助我们理解变量之间的关系，评估模型的拟合效果。

矩阵微分

函数表达式	梯度结果
$f (x) = c$	$0$
$f(x) = a^T x$	$a$
$f(x) = x^T A x$	$2 A x$
$f (x) = a x$	$a^T$
$f(x) = \|x\|_2^2$	$2 x$

$f(x) = a^T x$ 梯度推导

如果我们有一个三维向量 $a$ 和函数 $f(x) = a^T x$ ，那么梯度 $\nabla f(x)$ 直接是向量 $a$ 本身。

假设：

$\begin{bmatrix} a_1 \\ a_2 \\ a_3 \end{bmatrix}$

且向量 $x$ 也是三维的：

$\begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix}$

函数 $f(x) = a^T x$ 可以展开为：

$f(x) = a_1x_1 + a_2x_2 + a_3x_3$

梯度 $\nabla f(x)$ 的每个分量是 $f (x)$ 对 $x$ 中每个分量的偏导数，计算如下：

对 $x_1$ 的偏导数是 $a_1$
对 $x_2$ 的偏导数是 $a_2$
对 $x_3$ 的偏导数是 $a_3$

因此，梯度 $\nabla f(x)$ 是：

$\nabla f(x) = \begin{bmatrix} a_1 \\ a_2 \\ a_3 \end{bmatrix} = a$

$f(x) = x^T A x$ 梯度推导

假设 $A$ 是一个三维对称矩阵，其元素如下：

$\begin{bmatrix} a_{11} & a_{12} & a_{13} \\ a_{12} & a_{22} & a_{23} \\ a_{13} & a_{23} & a_{33} \end{bmatrix}$

向量 $x$ 也是三维的：

$\begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix}$

函数 $f (x)$ 可以展开为：

$\begin{bmatrix} x_1 & x_2 & x_3 \end{bmatrix} \begin{bmatrix} a_{11} & a_{12} & a_{13} \\ a_{12} & a_{22} & a_{23} \\ a_{13} & a_{23} & a_{33} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix}$

这会得到：

$f(x) = a_{11}x_1^2 + 2a_{12}x_1x_2 + 2a_{13}x_1x_3 + a_{22}x_2^2 + 2a_{23}x_2x_3 + a_{33}x_3^2$

使用梯度公式 $\nabla f(x) = 2Ax$ ，我们得到：

$\nabla f(x) = 2 \begin{bmatrix} a_{11} & a_{12} & a_{13} \\ a_{12} & a_{22} & a_{23} \\ a_{13} & a_{23} & a_{33} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix}$

$\begin{bmatrix} a_{11}x_1 + a_{12}x_2 + a_{13}x_3 \\ a_{12}x_1 + a_{22}x_2 + a_{23}x_3 \\ a_{13}x_1 + a_{23}x_2 + a_{33}x_3 \end{bmatrix}$

这个结果给出了 $f(x) = x^T A x$ 的梯度表达式，其中 $A$ 是一个三维对称矩阵， $x$ 是一个三维向量。

$f (x) = a x$ 梯度推导

$f(x) = ax = (a^T)^Tx$

$\nabla f(x) = a^T$

$f(x) = \|x\|_2^2$ 梯度推导

$\|x\|_2^2 = x^T x = \sum_{i=1}^n x_i^2$

其中， $[x_1, x_2, \dots, x_n]^T$ 。

对于每个分量 $x_i$ ，函数 $f (x)$ 的偏导数是：

$\frac{\partial}{\partial x_i} (x_i^2) = 2x_i$

因此，梯度 $\nabla f(x)$ 是：

$\nabla f(x) = \begin{bmatrix} 2x_1 \\ 2x_2 \\ \vdots \\ 2x_n \end{bmatrix} = 2x$

假设 $x$ 是一个三维向量， $\begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix}$ ，那么：

$f(x) = x_1^2 + x_2^2 + x_3^2$

梯度为：

$\nabla f(x) = \begin{bmatrix} 2x_1 \\ 2x_2 \\ 2x_3 \end{bmatrix} = 2x$

这样的计算表明，对于函数 $f(x) = \|x\|_2^2$ ，其梯度直接指向向量 $x$ 的方向，且大小是 $x$ 的两倍，反映了在每个方向上的变化率。

多元线性回归问题

线性回归模型的基本形式，其中包含一组数据点 $(x_1, y_1), (x_2, y_2), \ldots, (x_m, y_m)$ ，每个 $x_i$ 是 $d -$ 维的特征向量， $y_i$ 是相应的标量响应。线性回归模型试图找到一个权重向量 $\in \mathbb{R}^d$ 和一个偏置项 $\in \mathbb{R}$ ，使得对于所有 $\ldots, m$ ，模型的预测 $y_i$ 逼近真实响应 $f(x_i)$ ，其中模型的预测由线性方程给出：

$y_i \approx f(x_i) = w^T x_i + b$

这里， $w^T x_i$ 表示向量 $w$ 和向量 $x_i$ 的点积，加上偏置项 $b$ 。

线性回归模型目标函数

线性回归通常使用最小二乘法来估计 $w$ 和 $b$ ，即最小化所有数据点上预测值和实际值之间差的平方和：

$\min_{w, b} \sum_{i=1}^m (y_i - (w^T x_i + b))^2$

通过这个优化问题，可以找到最佳的 $w$ 和 $b$ ，使模型在给定数据上的误差最小。

数学解法

为了解这个优化问题，通常：

需要对 $w$ 和 $b$ 进行偏导，并设置导数为零来解析求解。
或者使用梯度下降等数值优化方法迭代求解。
在实际应用中，可能还会考虑正则化项来避免过拟合，比如 $L 1$ 或 $L 2$ 正则化。

如何简化线性回归模型目标函数

引入新的特征向量：

定义新的特征向量 $\hat{\mathbf{x}}_i：$

$\hat{\mathbf{x}}_i = \begin{pmatrix} \mathbf{x}_i \\ 1 \end{pmatrix} = \begin{pmatrix} x_{i1} \\ x_{i2} \\ \vdots \\ x_{id} \\ 1 \end{pmatrix} \in \mathbb{R}^{d+1}$

这里将原始特征向量 $\mathbf{x}_i$ 扩展了一个维度，新增的特征值固定为 $1$ 。这样做的目的是将偏置 $b$ 作为权重的一部分来处理，以简化计算。
定义新的权重向量：

同时，将原来的权重向量 $\mathbf{w}$ 和偏置 $b$ 合并成一个新的向量：

$\hat{\mathbf{w}} = \begin{pmatrix} \mathbf{w} \\ b \end{pmatrix} \in \mathbb{R}^{d+1}$
新的表示：

通过引入 $\hat{\mathbf{x}}_i$ 和 $\hat{\mathbf{w}}$ ，可以将线性模型 $w^T x_i + b$ 简化为：

$\hat{\mathbf{w}}^T \hat{\mathbf{x}}_i$

这样，模型中就不再需要单独处理偏置项 $b$ ，使得公式变得更加简洁。目标是最小化误差平方和：

$E(\hat{\mathbf{w}}) = \sum_{i=1}^{m} \left( \hat{\mathbf{w}}^T \hat{\mathbf{x}}_i - y_i \right)^2$

总结

为了简化计算，引入了一个新的特征向量 $\hat{\mathbf{x}}_i$ 和权重向量 $\hat{\mathbf{w}}$ ，这样可以将偏置 $b$ 合并到权重中，简化公式的表示形式。

将目标函数用矩阵乘法的形式表示出来，从而简化计算和推导

$\mathbf{X} = \begin{pmatrix} \hat{\mathbf{x}}_1^T \\ \hat{\mathbf{x}}_2^T \\ \vdots \\ \hat{\mathbf{x}}_m^T \end{pmatrix} = \begin{pmatrix} x_{11} & x_{12} & \dots & x_{1d} & 1 \\ x_{21} & x_{22} & \dots & x_{2d} & 1 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & \dots & x_{md} & 1 \end{pmatrix}$

这里，矩阵 $\mathbf{X} \in \mathbb{R}^{m \times (d+1)}$ 包含了所有样本的特征，其中每一行对应一个样本的特征向量 $\hat{\mathbf{x}}_i^T$ ，并且每一行的最后一个元素都是 $1$ ，这与定义新的特征向量 $\hat{\mathbf{x}}_i$ 保持一致。

$E(\mathbf{w}, b) = \sum_{i=1}^{m} \left( \hat{\mathbf{w}}^T \hat{\mathbf{x}}_i - y_i \right)^2$

然后，将所有样本放到矩阵 $\mathbf{X}$ 和向量 $\mathbf{y}$ 中，目标函数可以进一步表示为：

$E(\hat{\mathbf{w}}) = \|\mathbf{X} \hat{\mathbf{w}} - \mathbf{y}\|_2^2$

具体推导

背景回顾

在前面的推导中，我们引入了新的特征向量 $\hat{\mathbf{x}}_i$ 和权重向量 $\hat{\mathbf{w}}$ ：

$\hat{\mathbf{x}}_i = \begin{pmatrix} x_{i1} \\ x_{i2} \\ \vdots \\ x_{id} \\ 1 \end{pmatrix}, \quad \hat{\mathbf{w}} = \begin{pmatrix} w_1 \\ w_2 \\ \vdots \\ w_d \\ b \end{pmatrix}$

通过引入这两个向量，线性模型的预测可以写为：

$\hat{y}_i = \hat{\mathbf{w}}^T \hat{\mathbf{x}}_i = \sum_{j=1}^{d} w_j x_{ij} + b$

目标是最小化预测值与实际值之间的误差平方和：

$E(\hat{\mathbf{w}}) = \sum_{i=1}^{m} \left( \hat{\mathbf{w}}^T \hat{\mathbf{x}}_i - y_i \right)^2$

将所有样本放到矩阵和向量中

为了简化计算和推导，我们引入矩阵 $\mathbf{X}$ 和向量 $\mathbf{y}$ ：
1. 构造特征矩阵 $\mathbf{X}$ ：
  
  设我们有 $m$ 个样本，每个样本有 $d$ 个特征。定义特征矩阵 $\mathbf{X} \in \mathbb{R}^{m \times (d+1)}：$
  
  $\mathbf{X} = \begin{pmatrix} \hat{\mathbf{x}}_1^T \\ \hat{\mathbf{x}}_2^T \\ \vdots \\ \hat{\mathbf{x}}_m^T \end{pmatrix} = \begin{pmatrix} x_{11} & x_{12} & \dots & x_{1d} & 1 \\ x_{21} & x_{22} & \dots & x_{2d} & 1 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & \dots & x_{md} & 1 \end{pmatrix}$
  
  每一行对应一个样本的特征向量，其中最后一列全是 $1$ ，这是为了合并偏置项 $b$ 到特征向量中。
2. 构造目标值向量 $\mathbf{y}$ ：
  
  定义目标值向量 $\mathbf{y} \in \mathbb{R}^m$ ：
  
  $\mathbf{y} = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{pmatrix}$
3. 利用矩阵形式表示预测值：
  
  我们的模型预测值 $\hat{y}_i$ 可以用矩阵-向量乘法表示为：
  
  $\mathbf{X} \hat{\mathbf{w}} = \begin{pmatrix} \hat{\mathbf{x}}_1^T \hat{\mathbf{w}} \\ \hat{\mathbf{x}}_2^T \hat{\mathbf{w}} \\ \vdots \\ \hat{\mathbf{x}}_m^T \hat{\mathbf{w}} \end{pmatrix} = \begin{pmatrix} \hat{y}_1 \\ \hat{y}_2 \\ \vdots \\ \hat{y}_m \end{pmatrix}$
  
  这里， $\mathbf{X} \hat{\mathbf{w}}$ 是一个 $\times 1$ 的向量，每个元素都是模型的线性预测值。
目标函数的矩阵形式

利用矩阵 $\mathbf{X}$ 和向量 $\mathbf{y}$ ，我们可以将误差平方和重新表示为：

$E(\hat{\mathbf{w}}) = \sum_{i=1}^{m} \left( \hat{\mathbf{w}}^T \hat{\mathbf{x}}_i - y_i \right)^2 = \|\mathbf{X} \hat{\mathbf{w}} - \mathbf{y}\|_2^2$
- 解释：这里 $\mathbf{X} \hat{\mathbf{w}}$ 是所有样本的预测值向量， $\mathbf{y}$ 是所有样本的实际值向量， $\mathbf{X} \hat{\mathbf{w}} - \mathbf{y}$ 是预测值和实际值的误差向量。
- 范数： $\|\cdot\|_2^2$ 表示向量的 $L_2$ 范数的平方，即向量中每个元素平方和。
优势

通过将目标函数写成矩阵形式 $\|\mathbf{X} \hat{\mathbf{w}} - \mathbf{y}\|_2^2$ ，我们将复杂的求和操作转化为简单的矩阵运算。这种表示方式非常简洁，并且便于使用线性代数方法（如梯度下降、正规方程等）来求解最优的参数 $\hat{\mathbf{w}}$ 。

$E(\hat{\mathbf{w}}) = (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y})^T (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y})$

为什么要转置一下

这里转置的原因是为了将范数的平方表示为矩阵的二次型，从而方便计算和推导。

向量范数平方的定义

首先，我们看一下 $\|\mathbf{X} \hat{\mathbf{w}} - \mathbf{y}\|_2^2$ 的含义。这里， $\mathbf{X} \hat{\mathbf{w}} - \mathbf{y}$ 是一个向量，用来表示预测值与真实值之间的误差。 $L_2$ 范数的平方定义为向量中每个元素的平方和：

$\|\mathbf{X} \hat{\mathbf{w}} - \mathbf{y}\|_2^2 = \sum_{i=1}^{m} (z_i)^2$

其中， $z_i$ 是误差向量 $\mathbf{X} \hat{\mathbf{w}} - \mathbf{y}$ 的第 $i$ 个元素。

将范数平方表示为矩阵二次型

现在，将这个范数平方用矩阵运算表示。对于任意向量 $\mathbf{z} \in \mathbb{R}^m$ ，它的 $L_2$ 范数平方可以表示为：

$\|\mathbf{z}\|_2^2 = \mathbf{z}^T \mathbf{z}$

在这里， $\mathbf{z}^T$ 表示 $\mathbf{z}$ 的转置，矩阵乘法 $\mathbf{z}^T \mathbf{z}$ 会得到一个标量，它等于向量 $\mathbf{z}$ 中各元素的平方和。这与 $L_2$ 范数平方的定义是一致的。

回到我们的目标函数，这里的向量 $\mathbf{z} = \mathbf{X} \hat{\mathbf{w}} - \mathbf{y}$ ，所以：

$\|\mathbf{X} \hat{\mathbf{w}} - \mathbf{y}\|_2^2 = (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y})^T (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y})$

为什么要转置
1. 将范数转化为矩阵形式：通过引入转置操作，我们将范数的平方表示为矩阵的二次型形式。这个形式在计算上非常有用，尤其是在求导时。
2. 方便推导梯度：接下来的步骤中，我们需要对这个误差函数求梯度，以找到最优的参数 \hat{\mathbf{w}}。利用二次型的形式，可以直接使用矩阵微分的规则来进行推导，这比处理求和形式更为简洁和高效。

这样，目标函数变成了一个标准的二次型表达式，这对于接下来的求解和优化非常有帮助。

这张图片展示了如何求解优化问题。目标是找到最优的参数向量 $\hat{\mathbf{w}}$ 使得误差最小：

$\hat{\mathbf{w}}^* = \arg\min_{\hat{\mathbf{w}}} (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y})^T (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y})$

接下来，为了找到最优解，我们对目标函数 $E(\hat{\mathbf{w}}) = (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y})^T (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y})$ 求梯度：

$\nabla E(\hat{\mathbf{w}}) = 2 \mathbf{X}^T (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y})$

求梯度的具体过程

$E(\hat{\mathbf{w}}) = (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y})^T (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y})$

$\Rightarrow E(\hat w) = \hat w^TX^TX\hat w - \hat w^TX^Ty - y^TX\hat w + y^Ty$

由于， $\hat w^TX^Ty = (X \hat w)^T y$ ， $y^TX \hat w = y^T(X \hat w)$ ，这两个是内积表达式，是一个相等的值

$\Rightarrow E(\hat w) = \hat w^T(X^TX)\hat w - 2 y^TX\hat w + y^Ty$

$\Rightarrow \nabla E(\hat w) = 2(X^TX)\hat w - 2X^Ty$

$\Rightarrow \nabla E(\hat w) = 2X^TX \hat w - 2X^Ty \\ \Rightarrow \nabla E(\hat w) = 2X^T(X\hat w - y)$

总结

引入了特征矩阵 $\mathbf{X}$ ，使得所有样本的特征可以用一个矩阵表示，方便接下来的计算。
将目标函数表示为范数的平方和，进一步简化为二次型形式，以便进行矩阵运算。
给出了目标函数的优化问题，并计算了其梯度，为求解最优参数提供了理论基础。通过设定梯度为零，可以得到线性回归的最优解。

如何求解目标函数的最小值

1. 设置梯度为零

从前面的推导中，我们知道目标函数 $E(\hat{\mathbf{w}}) = (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y})^T (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y})$ 的梯度为：

$\nabla E(\hat{\mathbf{w}}) = 2 \mathbf{X}^T (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y})$

为了找到最优解 $\hat{\mathbf{w}}$ ，需要将梯度设为零：

$\nabla E(\hat{\mathbf{w}}) = 2 \mathbf{X}^T (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y}) = 0$

2. 解线性方程

上式化简为：

$\mathbf{X}^T \mathbf{X} \hat{\mathbf{w}} = \mathbf{X}^T \mathbf{y}$

这是一个线性方程组，其中 $\mathbf{X}^T \mathbf{X}$ 是一个 $\times (d+1)$ 的方阵， $\mathbf{X}^T \mathbf{y}$ 是一个 $\times 1$ 的向量。

3. 求解最优参数

当矩阵 $\mathbf{X}^T \mathbf{X}$ 是满秩矩阵（即可逆矩阵）时，我们可以通过矩阵求逆来求解这个方程，得到最优的参数 $\hat{\mathbf{w}}^*$ ：

$\hat{\mathbf{w}}^* = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}$

这个结果被称为线性回归的正规方程解，它是线性回归中求解最优参数的解析解。

4. 拆分参数向量

从之前的定义，我们知道：

$\hat{\mathbf{w}} = \begin{pmatrix} \mathbf{w} \\ b \end{pmatrix}$

因此，求解得到的 $\hat{\mathbf{w}}^*$ 中，前 $d$ 个元素构成权重向量 $\mathbf{w}^*$ ，最后一个元素是偏置 $b^*$ ：

$\mathbf{w}^* = \hat{\mathbf{w}}^*(1:d), \quad b^* = \hat{\mathbf{w}}^*(d+1)$

5. 关于矩阵 $\mathbf{X}^T \mathbf{X}$ 的可逆性

当 $\mathbf{X}^T \mathbf{X}$ 不是满秩矩阵时，上述方程可能有多个解。这种情况下， $\mathbf{X}^T \mathbf{X}$ 不可逆，我们不能直接求逆得到唯一解。

解决方法：在这种情况下，可以采用正则化方法（如岭回归）来解决，这种方法在 $\mathbf{X}^T \mathbf{X}$ 不可逆或者接近奇异矩阵时，能够找到一个稳定的解。

总结

通过将梯度设为零，我们得到了线性方程组 $\mathbf{X}^T \mathbf{X} \hat{\mathbf{w}} = \mathbf{X}^T \mathbf{y}$ 。
当 $\mathbf{X}^T \mathbf{X}$ 可逆时，利用正规方程可以求解最优参数 $\hat{\mathbf{w}}$ 。
将求得的 $\hat{\mathbf{w}}$ 分解，前 $d$ 个元素为权重向量 $\mathbf{w}$ ，最后一个元素为偏置 $b$ 。
如果 $\mathbf{X}^T \mathbf{X}$ 不可逆，需要采用正则化等方法来求解。

广义线性回归（Generalized Linear Models, GLM）

1. 广义线性回归的基本形式

广义线性回归模型是一类推广了传统线性回归的模型，它允许因变量 $y$ 和线性预测器之间通过非线性函数建立关系。它的一般形式为：

$g^{-1}(\mathbf{w}^T \mathbf{x} + b)$

其中：

$\mathbf{w}^T \mathbf{x} + b$ 是线性预测器，将输入特征 $\mathbf{x}$ 通过权重向量 $\mathbf{w}$ 线性组合再加上偏置 $b$ 。
$g(\cdot)$ 是一个联系函数（link function），它是一个单调可微的函数，用于将线性预测器的值映射到因变量的空间。
$g^{-1}(\cdot)$ 是联系函数的反函数，表示输出 $y$ 与线性组合之间的关系。

2. 联系函数（Link Function）

联系函数是广义线性回归的核心，它定义了因变量 $y$ 与线性预测器之间的非线性关系。在图片中，联系函数 $g(\cdot)$ 被强调为单调可微的函数，这意味着它必须具有可逆性，这样我们才能通过反函数 $g^{-1}(\cdot)$ 从线性预测器中得到因变量。

为什么需要联系函数？ 在一些实际问题中，因变量 $y$ 可能具有一些约束，比如取值范围为非负（如计数、概率等）。联系函数可以帮助我们把线性预测器的值映射到满足这些约束的范围内。

3. 对数线性回归（ $P o i sso n$ 回归）

一个特殊的联系函数： $g(\cdot) = \ln(\cdot)$ ，这就是对数线性回归（也称为泊松回归， $P o i sso n$ $R e g ress i o n$ ）的联系函数。当选择这个联系函数时，广义线性模型的形式为：

$\ln y = \mathbf{w}^T \mathbf{x} + b$

在这种情况下，输出 $y$ 通常表示一个非负的计数数据，通过取对数，将 $y$ 与线性组合关联起来，模型可以预测非负的输出值。

4. 其他常见的广义线性模型

广义线性模型还包括其他常见的模型，如：

逻辑回归： $g(\cdot)$ 为逻辑函数（ $s i g m o i d$ ），用于二分类问题。
泊松回归： $g(\cdot) = \ln(\cdot)$ ，用于预测计数数据。
线性回归： $g(\cdot)$ 为恒等函数，等价于传统的线性回归。

总结

介绍了广义线性回归模型的基本形式，强调了联系函数的作用，它通过联系函数的反函数 $g^{-1}(\cdot)$ 将线性预测器映射到输出空间。

岭回归（Ridge Regression）

1. 损失函数的变化：引入正则化项

图中给出的损失函数为：

$E(\mathbf{w}, b) = \sum_{i=1}^{m} (\mathbf{w}^T \mathbf{x}_i + b - y_i)^2 + \lambda (\|\mathbf{w}\|_2^2 + b^2)$

第一项 $\sum_{i=1}^{m} (\mathbf{w}^T \mathbf{x}_i + b - y_i)^2$ 是传统的线性回归的平方误差损失，表示模型预测值与真实值之间的差异。
第二项 $\lambda (\|\mathbf{w}\|_2^2 + b^2)$ 是正则化项，用来惩罚参数的大小，防止模型过拟合：
- $\|\mathbf{w}\|_2^2$ 是权重向量 $\mathbf{w}$ 的 $L_2$ 范数平方，表示了所有权重的平方和。
- $b^2$ 是偏置项的平方。
- $\lambda > 0$ 是正则化参数，控制惩罚项的权重大小。较大的 $\lambda$ 会使模型的参数趋于零，从而简化模型（提高泛化能力），但过大的 $\lambda$ 可能导致欠拟合。

2. 等价表达形式

为了解决这个优化问题，图片中将损失函数进行了重新表示。首先定义新的参数向量：

$\hat{\mathbf{w}} = \begin{bmatrix} \mathbf{w} \\ b \end{bmatrix}, \quad \hat{\mathbf{x}}_i = \begin{bmatrix} \mathbf{x}_i \\ 1 \end{bmatrix}, \quad i = 1, \dots, m$

利用这个新的表示形式，损失函数可以简化为：

$E(\hat{\mathbf{w}}) = \sum_{i=1}^{m} (\hat{\mathbf{w}}^T \hat{\mathbf{x}}_i - y_i)^2 + \lambda \|\hat{\mathbf{w}}\|_2^2$

这里， $\|\hat{\mathbf{w}}\|_2^2$ 包含了权重向量 $\mathbf{w}$ 和偏置项 $b$ 的平方和，这种表示方式方便我们用矩阵形式进行计算。

3. 如何估计 $\mathbf{w}$ 和 $b$

这个损失函数中包含了正则化项，优化目标是找到参数 $\hat{\mathbf{w}}$ 使得 $E(\hat{\mathbf{w}})$ 最小化。为此，使用梯度下降或解析求解的方法。

解析求解

梯度：首先，我们可以对损失函数 $E(\hat{\mathbf{w}})$ 对 $\hat{\mathbf{w}}$ 求梯度：

$\nabla E(\hat{\mathbf{w}}) = 2 \mathbf{X}^T (\mathbf{X} \hat{\mathbf{w}} - \mathbf{y}) + 2 \lambda \hat{\mathbf{w}}$

这里， $\mathbf{X}$ 是扩展后的特征矩阵， $\mathbf{X} = [\hat{\mathbf{x}}_1, \hat{\mathbf{x}}_2, \dots, \hat{\mathbf{x}}_m]^T$ 。
设梯度为零：为了找到最优解 $\hat{\mathbf{w}}$ ，将梯度设为零：

$\mathbf{X}^T \mathbf{X} \hat{\mathbf{w}} + \lambda \hat{\mathbf{w}} = \mathbf{X}^T \mathbf{y}$
求解 $\hat{\mathbf{w}}$ ：这是一组线性方程，可以解得：

$\hat{\mathbf{w}} = (\mathbf{X}^T \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^T \mathbf{y}$

其中， $\mathbf{I}$ 是单位矩阵， $\lambda \mathbf{I}$ 的引入保证了 $\mathbf{X}^T \mathbf{X} + \lambda \mathbf{I}$ 是可逆的，即使 $\mathbf{X}^T \mathbf{X}$ 不可逆。这是岭回归的标准解析解。
分离参数：一旦得到了 $\hat{\mathbf{w}}$ ，可以将其拆分为：

$\mathbf{w} = \hat{\mathbf{w}}(1:d), \quad b = \hat{\mathbf{w}}(d+1)$

总结

通过在损失函数中加入正则化项，防止模型过拟合，提高模型的泛化能力。
利用新的向量 $\hat{\mathbf{w}}$ 和扩展特征向量 $\hat{\mathbf{x}}_i$ 的表示形式，简化了计算。
正则化的引入使得优化问题可以通过解析解求解，从而得到参数估计。

对数几率回归

概率统计：极大似然法（Maximum Likel ihood）

概率与似然（Probability vs. Likelihood）

概率：有已知的理论概率 $\Rightarrow$ 实验结果的可能性

似然：已知实验的结果 $\Rightarrow$ 理论上参数的可能性

离散随机变量
- 离散随机变量是指变量的取值是离散的，即只能取有限个或可列个值。
相互独立的观测值与似然函数
- 当有 $m$ 个相互独立的观测值 $x_1,x_2,\cdots,x_m$ 时，对于给定的参数 $\theta$ ，其似然函数定义为
  
  $L\left(\theta | x_{1},\cdots,x_{m}\right)=p_{\theta}\left(x_{1}\right)\cdots p_{\theta}\left(x_{m}\right)$
  
  这里的 $p_{\theta}\left(x_{i}\right)$ 表示在参数 $\theta$ 下，观测值 $x_i$ 出现的概率。
- 由于观测值相互独立，所以多个观测值同时出现的概率等于各个观测值出现概率的乘积。取对数后的形式为
  
  $\ln L\left(\theta | x_{1},\cdots,x_{m}\right)=\sum_{i = 1}^{m}\ln p_{\theta}\left(x_{i}\right)$
- 对似然函数取对数在很多情况下可以简化计算，并且不改变函数的单调性，方便进行参数估计等后续操作。
- 取对数后，原来的乘积形式变为求和形式，更加便于分析和处理。
- 总之，这段内容描述了离散随机变量中，多个相互独立观测值的似然函数及其取对数后的形式，在统计学和概率论中常用于参数估计等问题。