部分参考 CMU 机器学习理论 课程讲义
Rademacher分布,Rademacher变量
n个样本,采用n个 σi 构成向量 σ .
其中Rademacher变量 σi i.d.d. 采样于Rademacher分布: P(σi=1)=12,P(σi=−1)=12 .
向量集合的Rademacher复杂度
n个实数组成的向量
y={y1,...,yn}∈Rn
这样的向量集合
Y⊂Rn
,(n维空间的一个集合,相当于|Y| 种 n个样本的标签取值的取法)
n维向量的集合Y的Rademacher复杂度是
二分类问题示例
二分类问题,标签域
Y:={−1,1}⊂R
, 每个样本的标签
yi∈Y
,
n=3
个样本的标签
y∈Y3
, 一共有
|Y|n=23=8
种标签取值可能。
考虑3个样本的8种标签取值可能中的其中4种标签取值:
Y={(−1,−1,−1),(1,1,1),(−1,−1,1),(−1,1,1)}
。
3个样本即3维
σ
向量,也有2^3=8种可能,每种取值可能的概率为
18
则
Y
的Rademacher复杂度为
其中 σ(1)=(−1,−1,−1) , … , σ(8)=(1,1,1) ,
函数族的Rademacher复杂度定义
Q:随机事件,随机变量,事件空间,概率分布…空间
空间
X
空间
X
上的实值函数族
F
, 其中每个函数
f:X空间
{\cal X}
上的概率分布
P_{\cal X}
→R
.
按照
PX
从
X
空间i.i.d.采样n个样本得到训练集合
X:={x1,x2,...,xn}
.
相对于这
n个样本,函数族
F
的 经验Rademacher复杂度 是
其中Rademacher变量 σi i.d.d. 采样于Rademacher分布: P(σi=1)=12,P(σi=−1)=12 .
函数族
F
的Rademacher复杂度是
上界部分说的是,给定了样本集合
X
和Rademacher变量集合
相对于
σ
求期望后的经验Rademacher复杂度度量的是,函数族
F
应用到一个固定的集合
X
上 拟合随机噪声的能力(Q 为什么怎么说?)。
相对于采样分布
分类问题 模型假设的Rademacher复杂度理解
n个样本的特征集合X={x_1,…,x_n }, 特征空间
X
,每个样本的特征
xi∈X
是个高维向量,这n个样本的标签构成向量
y=(f(x1),...,f(xn))
, 如果每个标签m种取值,则n个样本有m^n种标签取值可能。
模型假设类
F
考虑这些可能中的一些可能。
n个样本有2^n种 对f的随机加权组合,对每一种随机加权组合,用与这种随机 的内积最大的分类预测假设f。
用+1-1的组合表示随机标签,噪声;用内积表示相似度,拟合程度。
Rademacher复杂度度量的是 模型假设类 与 随机标签的 拟合程度。
Q: Rademacher随机变量只是 +1-1两种取值,这种噪声非常适合二分类问题。如果是多分类问题,或者连续的回归问题,Rademacher复杂度可用吗?有必要用连续的随机变量做噪声吗?
Q: 与VC维的联系与区别,与数据分布相关与否,