Rademacher复杂度极简例子

最新推荐文章于 2024-08-19 16:35:53 发布

闵帆

最新推荐文章于 2024-08-19 16:35:53 发布

阅读量1.1k

点赞数 3

分类专栏：机器学习基础文章标签：机器学习

本文链接：https://blog.csdn.net/minfanphd/article/details/107334747

版权

机器学习基础专栏收录该内容

17 篇文章 6 订阅

订阅专栏

Rademacher复杂度极简例子

（警告：本人为初学者，不保证本贴的正确性. 如有异议请留言, 感激不尽!）

动机

随机噪音对模型的影响.
所谓随机噪音，就是把正例、负例进行随机的改变.

例子

在这里插入图片描述

图1. 样本与模型示意图
如图1所示:

$\mathcal{X} = [0, 1]$ .
$\mathcal{Y} = \{-1, +1\}$ 对应于两个决策类, 分别用三角型(负例)和圆圈(正例)标注.
3个数据点: $S = \{0.05, 0.35, 0.6\}$ .
$\mathcal{H} = \{(d, sgn) | d \in [0, 1], sgn \in \{'>' , '<'\}\}$ . 当 $s g n =^{'} >^{'}$ 时, 表示 $x < d$ 时分类为 $- 1$ , 否则分类为 $+ 1$ . 当 $s g n =^{'} <^{'}$ 时, 表示 $x < d$ 时分类为 $+ 1$ , 否则分类为 $- 1$ .
根据模型 $\mathcal{H}$ , 给 $S$ 中数据打标签方式共6种:
$h = (0.02,^{'} <^{'})$ : $(- 1, - 1, - 1)$ , $h = (0.02,^{'} >^{'})$ : $(+ 1, + 1, + 1)$ ,
$h = (0.2,^{'} <^{'})$ : $(+ 1, - 1, - 1)$ , $h = (0.2,^{'} >^{'})$ : $(- 1, + 1, + 1)$ ,
$h = (0.4,^{'} <^{'})$ : $(+ 1, + 1, - 1)$ , $h = (0.4,^{'} >^{'})$ : $(- 1, - 1, + 1)$ .
令这6种方式的集合为 $Y$ .
当分割点大于 $0.6$ 时, 等价于分割点小于 $0.05$ , 即表示全 $- 1$ 或全 $+ 1$ .
对于该数据集, 假设(分类器) $h_1 = (0.01, '<')$ 与 $h_2 = (0.02, '<')$ 等价. 等价的分类器仅有6个. 它们获得了上述6种结果.
使用式(该式与[2]比较一致, 但与[1]不同. 这也是我纠结的地方.)
$\mathbb{E}_{\sigma}\left[\sup_{y \in Y}\left(\frac{1}{m} \sum_{i = 1}^m \sigma_i y_i\right)\right].$
$\sigma = (\sigma_1, \sigma_2, \sigma_3)$ 长度为 $m = 3$ , 有8种取值, 从 $(- 1, - 1, - 1)$ 至 $(+ 1, + 1, + 1)$ 假设其概率相同, 均为 $1 / 8$ .
当 $\sigma = (-1, -1, -1)$ 时, $y = (- 1, - 1, - 1)$ 可使方括号中间的值取最大值1.
当 $\sigma = (-1, +1, -1)$ 时, 由于 $\not\in Y$ , 即无法找到与随机噪音 $\sigma$ 完全匹配的分类方式, $y = (- 1, - 1, - 1)$ 或 $(- 1, + 1, + 1)$ 或 $(+ 1, + 1, - 1)$ 均可使方括号中间的值取最大值1/3.
8种 $\sigma$ 取值, 有6种与 $Y$ 中元素匹配, 匹配时最大值为1, 不匹配时最大值为1/3, 因此Rademacher复杂度为(6 + 2/3)/8 = 20/24 = 5/6.

分析

该例说明了 $Y$ 对随机噪音的适应性, 如果存在 $\sigma$ , 则相应项为1.
$Y$ 是由 $\mathcal{H}$ 得到的，所以说明了 $\mathcal{H}$ 的适应性. 这点比文献[3]更进一步.
与数据的具体标签无关.
没弄清楚书上[1]的Loss function是怎么用的.

进一步说明

由于 $Y$ 可以是由 $\mathcal{H}$ 中不同元素产生的, 所以可重写式子为
$R_S(\mathcal{H}) = \mathbb{E}_{\sigma}\left[\sup_{h \in \mathcal{H}}\left(\frac{1}{m} \sum_{i = 1}^m \sigma_i h(x_i)\right)\right].$
本例中 $R_S(\mathcal{H})$ 与具体的数据集 $S$ 无关，而仅与数据集大小 $m$ 有关，所以 $R_S(\mathcal{H}) = R_m(\mathcal{H})$ , 即经验Rademacher复杂度与Rademacher复杂度一致. 它们不一致的例子我还没想好.

参考文献
[1]: Foundations of Machine Learning.
[2]: 周志华: 机器学习.
[3]: https://blog.csdn.net/pearl30/article/details/74905593

闵帆

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
4
评论
Rademacher复杂度极简例子

Rademacher复杂度极简例子动机例子分析（警告：本人为初学者，不保证本贴的正确性. 如有异议请留言, 感激不尽!）动机随机噪音对模型的影响.所谓随机噪音，就是把正例、负例进行随机的改变.例子图1. 样本与模型示意图如图1所示:X=[0,1]\mathcal{X} = [0, 1]X=[0,1].Y={−1,+1}\mathcal{Y} = \{-1, +1\}Y={−1,+1} 对应于两个决策类, 分别用三角型(负例)和圆圈(正例)标注.3个数据点: 0.03,3.5,6.00.
复制链接

扫一扫

专栏目录