《最优化理论基础》8课时模块化教案（续）

Leweslyh

已于 2025-01-24 15:17:48 修改

阅读量717

点赞数 23

分类专栏：科学探索之路文章标签：最优化理论

于 2025-01-24 15:16:30 首次发布

本文链接：https://blog.csdn.net/weixin_41235419/article/details/145341765

版权

科学探索之路专栏收录该内容

117 篇文章

订阅专栏

《最优化理论基础》8课时模块化教案（续）

模块4第1课时：应用专题——稀疏优化与深度学习中的优化挑战

核心目标：掌握稀疏优化的数学原理与实现方法，分析深度学习优化问题的非凸性、大规模特性及解决方案。

1. 稀疏优化：LASSO回归与几何解释（60分钟）

1.1 L1正则化的数学形式
LASSO问题：
$\min_{\beta} \frac{1}{2n} \| y - X\beta \|_2^2 + \lambda \|\beta\|_1$

目标：在最小化残差平方和的同时，促使系数稀疏化（部分 $\beta_j = 0$ ）。

1.2 几何解释：L1 vs L2正则化

岭回归（L2）：约束区域为球体，解倾向于均匀收缩系数。
LASSO（L1）：约束区域为菱形，解倾向于在坐标轴上（稀疏性）。

示例：二维系数空间对比
设 $\beta = (\beta_1, \beta_2)$ ，约束区域：

L2： $\beta_1^2 + \beta_2^2 \leq t$ （圆形）。
L1： $|\beta_1| + |\beta_2| \leq t$ （菱形）。
最优解为等高线首次接触约束区域的位置，LASSO更易在顶点（坐标轴）接触，产生稀疏解。

1.3 坐标下降法求解LASSO
算法步骤：

初始化 $\beta = 0$ 。
对每个系数 $\beta_j$ 依次更新：
$\beta_j \leftarrow S_{\lambda/n} \left( \frac{1}{n} \sum_{i=1}^n x_{ij} (y_i - \sum_{k \neq j} x_{ik} \beta_k) \right)$
其中软阈值函数 $S_\tau(z) = \text{sign}(z)(|z| - \tau)_+$ 。

手动计算示例：
设数据 $\begin{bmatrix}1 & 2 \\ 3 & 4\end{bmatrix}$ , $\begin{bmatrix}5 \\ 6\end{bmatrix}$ , $\lambda = 1$ , 初始 $\beta = (0,0)$ 。

第1轮更新 $\beta_1$ ：
残差 $X\beta = [5,6]^T$ ，
更新量 $\times 5 + 3 \times 6)/2 = (5 + 18)/2 = 11.5$ ，
$\beta_1 = S_{0.5}(11.5) = 11.5 - 0.5 = 11$ 。
第1轮更新 $\beta_2$ ：
残差 $\times 11, 6 - 3 \times 11] = [-6, -27]$ ，
更新量 $\times (-6) + 4 \times (-27))/2 = (-12 -108)/2 = -60$ ，
$\beta_2 = S_{0.5}(-60) = -60 + 0.5 = -59.5$ 。

问题：此结果明显过拟合，需调整 $\lambda$ ，展示正则化强度的影响。

2. 深度学习中的优化挑战（60分钟）

2.1 非凸优化景观
示例：简单神经网络损失函数
考虑单隐层网络：
$W_1, W_2) = W_2 \sigma(W_1 x), \quad \text{损失} \ L = \frac{1}{2} \| y - f(x) \|^2$

非凸性来源：权重矩阵 $W_1, W_2$ 的乘积结构导致损失函数存在多个局部极小。

2.2 随机梯度下降（SGD）的优势

大规模数据：每次迭代随机采样小批量（mini-batch），计算梯度估计：
$\nabla L_B(\theta) = \frac{1}{|B|} \sum_{i \in B} \nabla l_i(\theta)$
逃离鞍点：噪声帮助跳出鞍点，探索更优区域。

2.3 自适应优化器：Adam算法
更新规则：
$m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t \quad (\text{一阶矩估计}) \\ v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2 \quad (\text{二阶矩估计}) \\ \hat{m}_t = \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t} \\ \theta_{t+1} = \theta_t - \alpha \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}$

代码示例（PyTorch）：

import torch
model = torch.nn.Linear(10, 1)
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
for epoch in range(100):
    for batch in data_loader:
        loss = torch.nn.MSELoss()(model(batch.x), batch.y)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

3. 稀疏优化与深度学习结合案例（30分钟）

3.1 稀疏神经网络训练
目标：通过L1正则化剪枝冗余连接。
损失函数：
$L(\theta) = \text{交叉熵} + \lambda \sum_{l,i,j} |W_{ij}^{(l)}|$
训练策略：

初始阶段使用较大 $\lambda$ 促进稀疏性。
剪枝接近零的权重，微调剩余参数。

3.2 稀疏自编码器示例
网络结构：输入层→瓶颈层（低维稀疏表示）→输出层。
激活函数：ReLU + L1约束，损失函数：
$\| X - \hat{X} \|_2^2 + \lambda \| h \|_1 \quad (h \text{为瓶颈层激活值})$
应用场景：特征提取、去噪。

4. 课堂实验：对比SGD与Adam在非凸问题中的表现（20分钟）

任务：在MNIST数据集上训练全连接网络，比较两种优化器的收敛速度与测试精度。
实验步骤：

代码框架：使用PyTorch定义相同网络结构（2隐层，ReLU）。
参数设置：
- SGD：学习率0.1，动量0.9。
- Adam：学习率0.001， $\beta_1=0.9, \beta_2=0.999$ 。
观测指标：
- 训练损失曲线。
- 测试集准确率随时间变化。
  典型结果：Adam更快收敛，最终精度相当或略优。

5. 板书设计示例

LASSO与岭回归解路径对比图：
横轴为 $\lambda$ ，纵轴为 $\beta_j$ ，LASSO路径呈现分段线性，部分系数突变为零。

深度学习优化挑战总结表：

挑战类型	表现	解决方案
非凸性	多个局部极小	SGD噪声、模型初始化策略
大规模参数	计算内存不足	分布式训练、梯度压缩
病态曲率	梯度下降震荡	自适应优化器（Adam）

6. 课后练习（选做）

理论题：推导LASSO问题的闭式解（当 $X$ 正交时）。
编程题：实现坐标下降法求解LASSO，并在糖尿病数据集上比较不同 $\lambda$ 的稀疏性。
分析题：解释批量大小（batch size）如何影响SGD的梯度估计方差和收敛速度。

参考答案：

闭式解推导：当 $X^TX = I$ ，LASSO解为：
$\beta_j = S_{\lambda/n} \left( \frac{1}{n} X_j^T y \right)$

编程题示例：

def coordinate_descent(X, y, lambda_, max_iter=100):
    n, p = X.shape
    beta = np.zeros(p)
    for _ in range(max_iter):
        for j in range(p):
            r = y - X @ beta + X[:,j] * beta[j]
            z = np.dot(X[:,j], r) / n
            beta[j] = np.sign(z) * max(0, abs(z) - lambda_ / n)
    return beta

批量大小分析：
- 小批量：梯度估计方差大，但迭代速度快，适合逃离局部极小。
- 大批量：梯度估计准确，但计算成本高，易陷入尖锐极小。

对比图**：
横轴为 $\lambda$ ，纵轴为 $\beta_j$ ，LASSO路径呈现分段线性，部分系数突变为零。

深度学习优化挑战总结表：

挑战类型	表现	解决方案
非凸性	多个局部极小	SGD噪声、模型初始化策略
大规模参数	计算内存不足	分布式训练、梯度压缩
病态曲率	梯度下降震荡	自适应优化器（Adam）

6. 课后练习（选做）

理论题：推导LASSO问题的闭式解（当 $X$ 正交时）。
编程题：实现坐标下降法求解LASSO，并在糖尿病数据集上比较不同 $\lambda$ 的稀疏性。
分析题：解释批量大小（batch size）如何影响SGD的梯度估计方差和收敛速度。

参考答案：

闭式解推导：当 $X^TX = I$ ，LASSO解为：
$\beta_j = S_{\lambda/n} \left( \frac{1}{n} X_j^T y \right)$

编程题示例：

def coordinate_descent(X, y, lambda_, max_iter=100):
    n, p = X.shape
    beta = np.zeros(p)
    for _ in range(max_iter):
        for j in range(p):
            r = y - X @ beta + X[:,j] * beta[j]
            z = np.dot(X[:,j], r) / n
            beta[j] = np.sign(z) * max(0, abs(z) - lambda_ / n)
    return beta