Rademacher complexity

部分参考 CMU 机器学习理论 课程讲义

Rademacher分布,Rademacher变量

n个样本,采用n个 σi 构成向量 σ .

其中Rademacher变量 σi i.d.d. 采样于Rademacher分布: P(σi=1)=12,P(σi=1)=12 .

向量集合的Rademacher复杂度

n个实数组成的向量 y={y1,...,yn}Rn
这样的向量集合 YRn ,(n维空间的一个集合,相当于|Y| 种 n个样本的标签取值的取法)

n维向量的集合Y的Rademacher复杂度是

R(Y):=Eσ[maxyY(1ni=1nσiyi)].

二分类问题示例

二分类问题,标签域 Y:={1,1}R , 每个样本的标签 yiY , n=3 个样本的标签 yY3 , 一共有 |Y|n=23=8 种标签取值可能。
考虑3个样本的8种标签取值可能中的其中4种标签取值:
Y={(1,1,1),(1,1,1),(1,1,1),(1,1,1)}
3个样本即3维 σ 向量,也有2^3=8种可能,每种取值可能的概率为 18
Y 的Rademacher复杂度为

R(Y)=k=1818r(k)

其中 σ(1)=(1,1,1) , … , σ(8)=(1,1,1) ,

r(1)=max{13(1,1,1)(1,1,1)T,13(1,1,1)(1,1,1)T,13(1,1,1)(1,1,11)T,13(1,1,1)(1,1,1)T}=13(1,1,1)(1,1,1)T=1

函数族的Rademacher复杂度定义

Q:随机事件,随机变量,事件空间,概率分布…空间

空间 X
空间 X 上的实值函数族 F , 其中每个函数 f:X {\cal X} P_{\cal X} R .
按照 PX X 空间i.i.d.采样n个样本得到训练集合 X:={x1,x2,...,xn} .

相对于n个样本,函数族 F 经验Rademacher复杂度

Rn^(X,F):=Eσ[supfF(1ni=1nσif(xi))]

其中Rademacher变量 σi i.d.d. 采样于Rademacher分布: P(σi=1)=12,P(σi=1)=12 .

函数族 F Rademacher复杂度

Rn(F):=EPX[Rn^(X,F):X={x1,...,xn},xiPX].

上界部分说的是,给定了样本集合 X 和Rademacher变量集合σ, 在函数族 F 的各个函数 f 中, f(xi) σi 的最大相关性。
相对于 σ 求期望后的经验Rademacher复杂度度量的是,函数族 F 应用到一个固定的集合 X 拟合随机噪声的能力(Q 为什么怎么说?)。
相对于采样分布PX的Rademacher复杂度度量的是,函数族 F X 空间满足 PX 分布的 所有n个元素的数据集合 上的拟合噪声的能力。

分类问题 模型假设的Rademacher复杂度理解

n个样本的特征集合X={x_1,…,x_n }, 特征空间 X ,每个样本的特征 xiX 是个高维向量,这n个样本的标签构成向量 y=(f(x1),...,f(xn)) , 如果每个标签m种取值,则n个样本有m^n种标签取值可能。
模型假设类 F 考虑这些可能中的一些可能。
n个样本有2^n种 对f的随机加权组合,对每一种随机加权组合,用与这种随机 的内积最大的分类预测假设f。

用+1-1的组合表示随机标签,噪声;用内积表示相似度,拟合程度。
Rademacher复杂度度量的是 模型假设类 与 随机标签的 拟合程度。

Q: Rademacher随机变量只是 +1-1两种取值,这种噪声非常适合二分类问题。如果是多分类问题,或者连续的回归问题,Rademacher复杂度可用吗?有必要用连续的随机变量做噪声吗?

Q: 与VC维的联系与区别,与数据分布相关与否,

  • 3
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值