Rademacher complexity

最新推荐文章于 2024-06-13 08:41:27 发布

pearl30

最新推荐文章于 2024-06-13 08:41:27 发布

阅读量7.1k

点赞数 3

分类专栏：机器学习理论模型选择文章标签：机器学习理论模型复杂度

本文链接：https://blog.csdn.net/pearl30/article/details/74905593

版权

模型选择同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

机器学习理论

1 篇文章 0 订阅

订阅专栏

部分参考 CMU 机器学习理论课程讲义

Rademacher分布，Rademacher变量

n个样本，采用n个 $\sigma_i$ 构成向量 $\sigma$ .

其中Rademacher变量 $\sigma_i$ i.d.d. 采样于Rademacher分布： $P(\sigma_i=1)=\frac{1}{2}, P(\sigma_i=-1)=\frac{1}{2}$ .

向量集合的Rademacher复杂度

n个实数组成的向量 $y=\{ y_1,...,y_n \}\in {\mathbb R}^n$
这样的向量集合 $Y \subset {\mathbb R}^n$ ，(n维空间的一个集合，相当于|Y| 种 n个样本的标签取值的取法)

n维向量的集合Y的Rademacher复杂度是

R (Y) : = E σ [max y \in Y (1 n \sum i = 1 n σ i y i)] .

$R( Y):={\mathbb E}_{\sigma}\left[ \max_{y \in Y} \left(\frac{1}{n}\sum_{i=1}^n \sigma_i y_i \right)\right].$

二分类问题示例

二分类问题，标签域 ${\cal Y} :=\{-1,1 \}\subset {\mathbb R}$ , 每个样本的标签 $y_i \in {\cal Y}$ , $n=3$ 个样本的标签 $y \in {\cal Y}^3$ , 一共有 $|{\cal Y}|^n=2^3=8$ 种标签取值可能。
考虑3个样本的8种标签取值可能中的其中4种标签取值：
$Y=\{ (-1,-1,-1), (1,1,1), (-1,-1,1), (-1,1,1) \}$ 。
3个样本即3维 $\sigma$ 向量，也有2^3=8种可能，每种取值可能的概率为 $\frac{1}{8}$
则 $Y$ 的Rademacher复杂度为

R (Y) = \sum k = 1 8 1 8 r (k)

$R(Y)=\sum_{k=1}^8 \frac{1}{8} r^{(k)}$
其中

σ(1)=(−1,−1,−1) $\sigma^{(1)}=(-1,-1,-1)$ , … ,

σ(8)=(1,1,1) $\sigma^{(8)}=(1,1,1)$ ,

r (1) = max {1 3 (- 1, - 1, - 1) \cdot (- 1, - 1, - 1) T, 1 3 (- 1, - 1, - 1) \cdot (1, 1, 1) T, 1 3 (- 1, - 1, - 1) \cdot (- 1, - 1, 11) T, 1 3 (- 1, - 1, - 1) \cdot (- 1, 1, 1) T} = 1 3 (- 1, - 1, - 1) \cdot (- 1, - 1, - 1) T = 1

$r^{(1)}=\max\{ \frac{1}{3} (-1,-1,-1)\cdot (-1,-1,-1)^T, \frac{1}{3} (-1,-1,-1)\cdot (1,1,1)^T, \frac{1}{3} (-1,-1,-1)\cdot (-1,-1,11)^T, \frac{1}{3} (-1,-1,-1)\cdot (-1,1,1)^T \}\\ =\frac{1}{3} (-1,-1,-1)\cdot (-1,-1,-1)^T=1$

函数族的Rademacher复杂度定义

Q：随机事件，随机变量，事件空间，概率分布…空间

空间 ${\cal X}$
空间 ${\cal X}$ 上的实值函数族 ${\cal F}$ , 其中每个函数 $f:{\cal X} 空间$ {\cal X} $上的概率分布$ P_{\cal X} $\rightarrow {\mathbb R}$ .
按照 $P_{\cal X}$ 从 ${\cal X}$ 空间i.i.d.采样n个样本得到训练集合 $X:=\{x_1,x_2,...,x_n\}$ .

相对于这n个样本，函数族 ${\cal F}$ 的 经验Rademacher复杂度 是

R n^(X, F) : = E σ [sup f \in F (1 n \sum i = 1 n σ i f (x i))]

$\hat{R_n}( {X,\cal F}):={\mathbb E}_{\sigma}\left[ \sup_{f\in {\cal F}} \left(\frac{1}{n}\sum_{i=1}^n \sigma_i f(x_i)\right)\right]$
其中Rademacher变量

σi $\sigma_i$ i.d.d. 采样于Rademacher分布：

P(σi=1)=12,P(σi=−1)=12 $P(\sigma_i=1)=\frac{1}{2}, P(\sigma_i=-1)=\frac{1}{2}$ .

函数族 ${\cal F}$ 的Rademacher复杂度是

Rn(F):=EPX[Rn^(X,F):X={x1,...,xn},xi∼PX].

$R_n( {\cal F}):={\mathbb E}_{P_{\cal X}}\left[ \hat{R_n} ( {X,\cal F}): X=\{x_1,...,x_n \}, x_i \sim P_{\cal X} \right].$

上界部分说的是，给定了样本集合 $X$ 和Rademacher变量集合 $\sigma$ , 在函数族 ${\cal F}$ 的各个函数 $f$ 中, $f(x_i)$ 与 $\sigma_i$ 的最大相关性。
相对于 $\sigma$ 求期望后的经验Rademacher复杂度度量的是，函数族 ${\cal F}$ 应用到一个固定的集合 $X$ 上 拟合随机噪声的能力(Q 为什么怎么说？)。
相对于采样分布 $P_{\cal X}$ 的Rademacher复杂度度量的是，函数族 ${\cal F}$ 在 ${\cal X}$ 空间满足 $P_{\cal X}$ 分布的所有n个元素的数据集合上的拟合噪声的能力。

分类问题模型假设的Rademacher复杂度理解

n个样本的特征集合X={x_1,…,x_n }, 特征空间 ${\cal X}$ ,每个样本的特征 $x_i \in {\cal X}$ 是个高维向量，这n个样本的标签构成向量 $y=(f(x_1),...,f(x_n))$ , 如果每个标签m种取值，则n个样本有m^n种标签取值可能。
模型假设类 ${\cal F}$ 考虑这些可能中的一些可能。
n个样本有2^n种对f的随机加权组合，对每一种随机加权组合，用与这种随机的内积最大的分类预测假设f。

用+1-1的组合表示随机标签，噪声；用内积表示相似度，拟合程度。
Rademacher复杂度度量的是模型假设类与随机标签的拟合程度。

Q： Rademacher随机变量只是 +1-1两种取值，这种噪声非常适合二分类问题。如果是多分类问题，或者连续的回归问题，Rademacher复杂度可用吗？有必要用连续的随机变量做噪声吗？

Q：与VC维的联系与区别，与数据分布相关与否，

pearl30

关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
Rademacher complexity

部分参考 CMU 机器学习理论课程讲义Rademacher分布，Rademacher变量n个样本，采用n个σi\sigma_i构成向量σ\sigma.其中Rademacher变量σi\sigma_i i.d.d. 采样于Rademacher分布：P(σi=1)=12,P(σi=−1)=12P(\sigma_i=1)=\frac{1}{2}, P(\sigma_i=-1)=\frac{1}{2}.向
复制链接

扫一扫