Hoeffing不等式

Chen_Chance

已于 2023-09-22 15:47:48 修改

阅读量610

点赞数 2

文章标签：概率论机器学习算法

于 2023-09-22 14:56:47 首次发布

本文链接：https://blog.csdn.net/qq_44154915/article/details/133170102

版权

在李航老师的统计学习方法（第一版中） $Hoe ff in g 不等式$ 是这样子给出的

设 $X_1,X_2,...,X_N$ 是独立随机变量，且 $X_i\in[a_i,b_i],i=1,2,...,N;S_N=\sum_{i=1}^NX_i$ ，则对任意t>0，以下不等式成立：
$P[S_N-E(S_N)≥t]≤exp[-\frac{2t^2}{\sum_{i=1}^N(b_i-a_i)^2}]$
$P[E(S_N)-S_N≥t]≤exp[-\frac{2t^2}{\sum_{i=1}^N(b_i-a_i)^2}]$

这两个数学公式是关于独立随机变量和它们的和的Hoeffding不等式的表达式。它们用于估计随机变量和与其期望之间的差异的概率上界。让我解释这些不等式的含义：

假设有 $N$ 个独立随机变量 $X_1, X_2, \ldots, X_N$ ，其中每个 $X_i$ 的取值范围位于区间 $a_i, b_i]$ 内，即 $a_i \leq X_i \leq b_i$ ，并且它们是彼此独立的。我们定义一个随机变量 $S_N$ ，表示这些随机变量的和，即 $S_N = \sum_{i=1}^N X_i$ 。同时，我们有 $E(S_N)$ 表示 $S_N$ 的期望值，即 $E(S_N) = \sum_{i=1}^N \mathbb{E}[X_i]$ 。

现在，这两个不等式分别描述了以下情况：

第一个不等式:
$P[S_N - E(S_N) \geq t] \leq \exp\left(-\frac{2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right)$

这个不等式表示随机变量和 $S_N$ 超过其期望值 $E(S_N)$ 的值大于或等于 $t$ 的概率不会超过 $\exp\left(-\frac{2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right)$ 。换句话说，它提供了一个关于 $S_N$ 偏离其期望值的概率上界。

第二个不等式:
$P[E(S_N) - S_N \geq t] \leq \exp\left(-\frac{2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right)$

这个不等式表示随机变量和 $S_N$ 低于其期望值 $E(S_N)$ 的值大于或等于 $t$ 的概率不会超过 $\exp\left(-\frac{2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right)$ 。它提供了一个关于 $S_N$ 偏离其期望值的概率上界，但是方向与第一个不等式相反。

这些不等式是Hoeffding不等式的一种形式，它们可用于估计随机变量和的性质以及样本统计的可靠性。不等式的右侧是关于样本范围 $a_i, b_i]$ 的性质和观察样本数量 $N$ 的函数，它们决定了概率上界的大小。这些不等式对于分析随机过程和估计样本均值的可信度非常有用。

在李航老师统计学习方法（第二版中）是这样子给出

设 $X_1,X_2,...,X_N$ 是独立随机变量，且 $X_i\in[a_i,b_i],i=1,2,...,N;\bar{X}$ 是 $X_1,X_2,...,X_N$ 的经验均值， $\bar{X}=\frac{1}{N}\sum_{i=1}^NX_i$ ，则对任意t>0，以下不等式成立
$P[\bar{X} - E(\bar{X}) \geq t] \leq \exp\left(-\frac{2N^2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right)$
$P[E(\bar{X}) - \bar{X} \geq t] \leq \exp\left(-\frac{2N^2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right)$

这两个不等式是关于经验均值（样本均值） $\bar{X}$ 与其期望值 $E(\bar{X})$ 之间的差异的概率上界，这些差异由Hoeffding不等式提供。让我解释这些不等式的含义：

假设有 $N$ 个独立随机变量 $X_1, X_2, \ldots, X_N$ ，其中每个 $X_i$ 的取值范围位于区间 $a_i, b_i]$ 内，即 $a_i \leq X_i \leq b_i$ ，并且它们是彼此独立的。我们定义一个随机变量 $\bar{X}$ ，表示这些随机变量的经验均值（样本均值），即 $\bar{X} = \frac{1}{N}\sum_{i=1}^N X_i$ 。

现在，这两个不等式分别描述了以下情况：

第一个不等式:
$P[\bar{X} - E(\bar{X}) \geq t] \leq \exp\left(-\frac{2N^2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right)$

这个不等式表示经验均值 $\bar{X}$ 超过其期望值 $E(\bar{X})$ 的值大于或等于 $t$ 的概率不会超过 $\exp\left(-\frac{2N^2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right)$ 。换句话说，它提供了一个关于经验均值 $\bar{X}$ 偏离其期望值 $E(\bar{X})$ 的概率上界。

第二个不等式:
$P[E(\bar{X}) - \bar{X} \geq t] \leq \exp\left(-\frac{2N^2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right)$

这个不等式表示经验均值 $\bar{X}$ 低于其期望值 $E(\bar{X})$ 的值大于或等于 $t$ 的概率不会超过 $\exp\left(-\frac{2N^2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right)$ 。它提供了一个关于经验均值 $\bar{X}$ 偏离其期望值 $E(\bar{X})$ 的概率上界，但方向与第一个不等式相反。

这些不等式是Hoeffding不等式的一种形式，它们可用于估计经验均值的性质以及样本统计的可靠性。不等式的右侧是关于样本范围 $a_i, b_i]$ 的性质和观察样本数量 $N$ 的函数，它们决定了概率上界的大小。这些不等式对于分析随机过程和估计样本均值的可信度非常有用。

如何从第一版推理到第二版

要从第一组不等式推导出第二组不等式，您可以使用一些基本的概率论和数学推导的技巧。下面是一种可能的推导方法：

首先，我们有 $S_N = \sum_{i=1}^N X_i$ ，并且 $\bar{X} = \frac{1}{N}S_N$ 。因此，我们可以将 $S_N$ 表示为 $\bar{X}$ 的形式：

$S_N = N \cdot \bar{X}$

接下来，让我们考虑第一个不等式：
$P[S_N - E(S_N) \geq t] \leq \exp\left(-\frac{2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right)$

现在用 $S_N = N \cdot \bar{X}$ 和 $E(S_N) = N \cdot E(\bar{X})$ 替换右侧的 $S_N$ 和 $E(S_N)$ ：
$\cdot \bar{X} - N \cdot E(\bar{X}) \geq t] \leq \exp\left(-\frac{2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right)$

然后，我们可以将 $N$ 提取出来，并且在不等式两侧都除以 $N$ ，得到：
$P[\bar{X} - E(\bar{X}) \geq \frac{t}{N}] \leq \exp\left(-\frac{2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right)$

最后，为了得到形式与第二组不等式相同的表达式，让 $\frac{t}{N}$ ，则不等式变为：
$P[\bar{X} - E(\bar{X}) \geq t'] \leq \exp\left(-\frac{2N^2t'^2}{\sum_{i=1}^N (b_i - a_i)^2}\right)$

这就得到了第二组不等式。现在，第二组不等式的形式与第一组不等式相同，只是将 $t$ 替换为了 $\frac{t}{N}$ ，而其他部分保持不变。这个过程用到了线性变换的性质以及概率论的基本规则，允许我们从一个不等式推导到另一个不等式，只需简单的代换。

如何推理得到泛化误差上界

证明：

第一步
假设在每一个样本点 $x_i$ ， $y_i$ 处的损失为 $X_i，X_i=L(y_i,f(x_i))$ ，则
$\bar{X}=\frac{1}{N} \sum_{i=1}^NL(y_i,f(x_i))=\hat{R}(f)$
$E(\bar{X})=E(\frac{1}{N} \sum_{i=1}^NL(y_i,f(x_i)))=\frac{1}{N} \sum_{i=1}^NE(L(y_i,f(x_i))) =\frac{1}{N} \sum_{i=1}^NE(L(Y,f(X)))=E(L(Y,F(X)))=R(f)$
对二分类问题，对于所有 $i，[a_i,b_i]=[0,1]$

这些等式是关于损失、经验风险和泛化误差的表达式，针对二分类问题，其中每个样本点都有一个损失函数 $X_i$ ，损失函数的定义为 $X_i = L(y_i, f(x_i))$ ，其中 $y_i$ 是真实标签， $f(x_i)$ 是模型 $f$ 对输入 $x_i$ 的预测。

以下是这些等式的解释：

$\bar{X}=\frac{1}{N} \sum_{i=1}^NL(y_i,f(x_i))=\hat{R}(f)$
- $\bar{X}$ 表示样本均值，也就是所有损失函数 $X_i$ 的平均值。
- $\hat{R}(f)$ 表示经验风险，它是模型 $f$ 在训练数据上的平均损失。
- 这个等式表示，样本均值 $\bar{X}$ 等于模型 $f$ 在训练数据上的经验风险 $\hat{R}(f)$ 。
$E(\bar{X})=E(\frac{1}{N} \sum_{i=1}^NL(y_i,f(x_i))) =\frac{1}{N} \sum_{i=1}^NE(L(y_i,f(x_i))) =\frac{1}{N} \sum_{i=1}^NE(L(Y,f(X)))=E(L(Y,F(X)))=R(f)$
- $E(\bar{X})$ 表示样本均值 $\bar{X}$ 的期望值，即在所有可能的训练数据集上取平均得到的损失的期望值。
- $E(L(y_i,f(x_i)))$ 表示在单个样本点上的损失函数的期望值。
- $\frac{1}{N} \sum_{i=1}^NE(L(y_i,f(x_i)))$ 表示在整个训练数据集上的平均损失函数的期望值，也就是经验风险 $\hat{R}(f)$ 的期望值。
- $\frac{1}{N} \sum_{i=1}^NE(L(Y,f(X)))$ 表示在所有可能的训练数据集上取平均得到的泛化误差的期望值。
- $E (L (Y, F (X)))$ 表示在所有可能的输入数据和真实标签上取平均得到的模型 $f$ 的泛化误差的期望值。
- $R (f)$ 表示模型 $f$ 的泛化误差。
- 这个等式表示，样本均值 $\bar{X}$ 的期望值等于模型 $f$ 的泛化误差 $R (f)$ 。

总结起来，这些等式说明了在二分类问题中，经验风险 $\hat{R}(f)$ 等于样本均值 $\bar{X}$ ，而模型 $f$ 的泛化误差 $R (f)$ 等于样本均值的期望值 $E(\bar{X})$ 。这些等式强调了模型的经验风险和泛化误差之间的关系。

$\frac{1}{N} \sum_{i=1}^NE(L(y_i,f(x_i))) =\frac{1}{N} \sum_{i=1}^NE(L(Y,f(X)))$
这两个表达式之所以相等，是因为它们表示了相同的概念，只是在符号上稍有不同。让我解释一下它们的含义：

$\frac{1}{N} \sum_{i=1}^N E(L(y_i, f(x_i)))$ ：
- 这个表达式的意思是，首先对每个样本点 $i$ 计算损失函数 $L(y_i, f(x_i))$ 的期望值，然后将这些期望值相加并取平均，其中 $N$ 是样本数量。
- 损失函数 $L(y_i, f(x_i))$ 的期望值表示在给定输入 $x_i$ 和真实标签 $y_i$ 的情况下，模型 $f$ 预测的损失的期望值。
$\frac{1}{N} \sum_{i=1}^N E(L(Y, f(X)))$ ：
- 这个表达式的意思是，在所有可能的输入数据 $X$ 和真实标签 $Y$ 的情况下，首先计算模型 $f$ 预测的损失函数 $L (Y, f (X))$ 的期望值，然后将这些期望值相加并取平均，其中 $N$ 仍然表示样本数量。
- 这相当于对所有可能的训练数据集（每个训练数据集都有不同的 $X$ 和 $Y$ ）计算模型的平均损失。