最小绝对偏差 (LAD)求解方法

高山莫衣

于 2024-12-08 20:26:05 发布

阅读量1.3k

点赞数 18

分类专栏：理论文章标签：统计

原创作品，共同进步！

本文链接：https://blog.csdn.net/AdamCY888/article/details/144331241

版权

理论专栏收录该内容

101 篇文章

订阅专栏

传统的 最小绝对偏差 (LAD) 回归的求解方法主要基于优化理论，因为 LAD 回归的目标函数涉及绝对值运算，导致不可导，需要特殊的方法来处理。以下是传统 LAD 求解参数的几种方法：

1. 线性规划法

LAD 回归问题可以转化为一个线性规划问题求解。

LAD 的目标函数：

$\min_{\beta} \sum_{i=1}^n |y_i - \mathbf{x}_i^\top \beta|$

转化为线性规划形式：

我们通过引入额外的变量 $u_i$ 和 $v_i$ （分别代表正偏差和负偏差）来消除绝对值符号：
$\min_{\beta, u, v} \sum_{i=1}^n (u_i + v_i)$
$\text{subject to: } y_i - \mathbf{x}_i^\top \beta = u_i - v_i, \quad u_i \geq 0, \, v_i \geq 0$

在此公式中：

$u_i$ 和 $v_i$ 表示偏差的正负部分。
约束条件确保 $u_i - v_i = y_i - \mathbf{x}_i^\top \beta$ ，从而代替绝对值。

优化求解：

这是一个标准的线性规划问题，目标函数和约束都是线性的。
可以用经典的线性规划求解算法（如单纯形法或内点法）来高效地求解。

2. 迭代加权最小二乘法 (Iteratively Reweighted Least Squares, IRLS)

IRLS 是一种迭代求解 LAD 的方法，将绝对偏差问题逐步近似为加权最小二乘问题。

方法原理：

LAD 的目标函数：
$\min_{\beta} \sum_{i=1}^n |y_i - \mathbf{x}_i^\top \beta|$
可以通过引入权重 $w_i$ 表示误差的反比例权重，迭代地近似为加权最小二乘：
$\min_{\beta} \sum_{i=1}^n w_i \left( y_i - \mathbf{x}_i^\top \beta \right)^2$
其中权重 $w_i$ 在每次迭代中更新为：
$w_i = \frac{1}{|y_i - \mathbf{x}_i^\top \beta| + \epsilon}$

$\epsilon > 0$ 是一个小正数，用于避免分母为零。

迭代步骤：

初始化 $\beta$ 的初始值（如最小二乘解）。
计算当前的残差 $r_i = y_i - \mathbf{x}_i^\top \beta$ 。
更新权重 $w_i = \frac{1}{|r_i| + \epsilon}$ 。
用加权最小二乘法重新计算新的 $\beta$ ：
$\beta = \left( \mathbf{X}^\top \mathbf{W} \mathbf{X} \right)^{-1} \mathbf{X}^\top \mathbf{W} \mathbf{y}$
其中 $\mathbf{W}$ 是对角权重矩阵。
重复步骤 2-4，直到收敛。

IRLS 是一种近似求解 LAD 的方法，通过迭代优化权重逐步逼近 LAD 解。

基本思想：

$L_1$ 损失函数（绝对偏差）可以通过分段的加权 $L_2$ 损失函数近似。
在每次迭代中，根据残差大小调整权重，更高的残差权重较低，从而逼近 LAD 的结果。

算法步骤：

初始化：选择初始参数 $\beta^{(0)}$ 和权重 $w_i^{(0)} = 1$ 。
计算残差： $r_i^{(k)} = y_i - \mathbf{x}_i^\top \beta^{(k)}$ 。
更新权重：设 $w_i^{(k)} = \frac{1}{|r_i^{(k)}| + \epsilon}$ ，其中 $\epsilon$ 是一个小的正数，防止分母为零。
更新参数：用加权最小二乘法更新 $\beta^{(k+1)}$ ：
$\beta^{(k+1)} = \underset{\beta}{\text{argmin}} \sum_{i=1}^n w_i^{(k)} \left( y_i - \mathbf{x}_i^\top \beta \right)^2$
这可以用普通最小二乘方法求解。
重复步骤 2-4，直到收敛。

优势：

易于实现，适用于中小规模问题。
在某些情况下收敛速度较快。

劣势：

对于特定数据分布（如极端异常值），可能需要较多迭代。
收敛性依赖于初始点的选择。

3. 子梯度法 (Subgradient Method)

由于 LAD 的目标函数 $\sum |y_i - \mathbf{x}_i^\top \beta|$ 在某些点不可导，可以使用子梯度法来求解。

子梯度定义：

对于不可导的函数，子梯度是对目标函数的一种广义的导数概念。
对于 LAD 的目标函数 $r_i|$ ，其子梯度为：
$\partial |r_i| = \begin{cases} 1, & \text{如果 } r_i > 0 \\ -1, & \text{如果 } r_i < 0 \\ [-1, 1], & \text{如果 } r_i = 0 \end{cases}$