投影随机梯度下降（Projected Stochastic Gradient Descent, 简称PSGD）

最新推荐文章于 2025-05-18 20:17:36 发布

爱看烟花的码农

最新推荐文章于 2025-05-18 20:17:36 发布

阅读量618

点赞数 16

分类专栏： ML 文章标签：人工智能投影梯度下降

本文链接：https://blog.csdn.net/Rhett_Butler0922/article/details/148033639

版权

1. 背景知识

1.1 什么是优化问题？

在机器学习和人工智能中，许多问题可以归结为优化问题，即寻找一个参数向量 $\theta \in \mathbb{R}^d$ ，使得目标函数 $f(\theta)$ 最小化。数学上，优化问题通常表示为： $\min_{\theta \in \mathbb{R}^d} f(\theta)$ 其中， $f(\theta)$ 通常是损失函数（例如，均方误差、交叉熵损失等）。

然而，在许多实际场景中，参数 $\theta$ 并非完全自由，而是受到某些约束。例如， $\theta$ 可能需要满足：

非负约束： $\theta_i \geq 0, \forall i$
范数约束： $\|\theta\|_2 \leq r$
概率约束： $\sum_i \theta_i = 1, \theta_i \geq 0$

这些约束使得优化问题变为约束优化问题： $\min_{\theta \in \mathcal{C}} f(\theta)$ 其中， $\mathcal{C} \subseteq \mathbb{R}^d$ 是一个约束集，通常是凸集。

1.2 随机梯度下降（SGD）简介

随机梯度下降（SGD）是无约束优化问题中常用的方法。对于目标函数 $f(\theta) = \frac{1}{n} \sum_{i=1}^n f_i(\theta)$ ，SGD通过随机采样一个样本（或小批量样本）计算梯度来更新参数。SGD的更新规则为： $\theta_{t+1} = \theta_t - \eta_t \nabla f_{i_t}(\theta_t)$ 其中：

$\eta_t$ 是学习率（步长），可以是固定的或随时间递减。
$\nabla f_{i_t}(\theta_t)$ 是随机采样的梯度， $i_t$ 是随机选择的样本索引。

SGD的优点是计算效率高，适合大规模数据集，但它无法直接处理约束优化问题，因为更新后的 $\theta_{t+1}$ 可能不在约束集 $\mathcal{C}$ 中。

1.3 约束优化与投影的概念

为了解决约束优化问题，我们需要在每次更新后确保参数 $\theta$ 仍然在约束集 $\mathcal{C}$ 内。这就是投影的作用。投影操作将一个点映射到约束集 $\mathcal{C}$ 上，通常定义为： $\Pi_{\mathcal{C}}(x) = \arg\min_{y \in \mathcal{C}} \|y - x\|_2^2$