1.0 引言
笔者第一次接触霍夫丁不等式(Hoeffding Inequality)是在林轩田先生的机器学习基石课程(还是在b站上看的hh)上。可以说,当时没有系统学过概率论与数理统计(probability and statistics)的我,对于不等式的推导是感到相当头疼。后来,我本科课程优化与机器学习课程引用了伦斯勒理工学院(RPI)的slide。乍看之下,发现竟与林轩田先生的课十分相似。后来,我才发现该课程参考书目Learning from data中作者之一就是林轩田先生。我在这一次成功理解了霍夫丁不等式的推导。接下来,我将详细基础介绍一下霍夫丁不等式,希望对概率论基础较为薄弱的自学读者们有所帮助。
1.1 需要补充的概率论知识
以下知识是需要读者自学的:
- 随机变量(random variable)的概念
- 期望(expectation)的概念与定义
- 伯努利分布(bernouli distribution)
- 二项式分布(binomial distribution)
- 泰勒展开(Talyor expansion)
介绍一下Indicator,指示随机变量。国内教材对其介绍甚少:
2 霍夫丁不等式理解
2.1霍夫丁不等式与机器学习的关系
我们数学定义的经验风险的期望和分类器错误率相等。这一定义符合直觉。注意到,实际抽样过程后,经验风险具现(crystalized)成数据(data)后与错误率是极大概率不同的(在连续情