第六部分内容:
1.偏差/方差(Bias/variance)
2.经验风险最小化(Empirical Risk Minization,ERM)
3.联合界(Union bound)
4.一致收敛(Uniform Convergence)
第七部分内容:
1. VC 维
2.模型选择(Model Selection)
2017.11.3注释:这两个部分都是讲述理论过程的,第一方面太难了,第二方面现在只想快速理解Ng的20节课程。所以这部分以后回头再看!
2017.11.4注释:这理论还是得掌握,不然看Ng视频干嘛?直接去操作TF算了啊。。。。
1.偏差/方差(Bias/variance)
https://www.gitbook.com/book/yoyoyohamapi/mit-ml/details,这个是比较简单的,偷懒不写了。
2.经验风险最小化(Empirical Risk Minization,ERM)
定义一个线性分类器
![](https://i-blog.csdnimg.cn/blog_migrate/bd60f8f03c8f7e4157c777851a73562e.png)
其中
![](https://i-blog.csdnimg.cn/blog_migrate/0426144484c959898a6b21b8e6debeb2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0d57a0e2329161b2208017ec9c25e95b.png)
假设有m个训练样本,样本之间是独立同分布的。
定义训练误差:
![](https://i-blog.csdnimg.cn/blog_migrate/95b541a54b11353a789a0e7dbe98c823.png)
训练误差也被称为风险。
经验风险最小化: 选择分类器函数的参数,使得分类器的训练误差(training error)最小。
![](https://i-blog.csdnimg.cn/blog_migrate/0e554b774ca885b15b8b913a684de389.png)
让我们换一种考虑方式:我们不是在选择最优分类器函数的参数,而是在选择最优的分类器函数。
定义假设类
![](https://i-blog.csdnimg.cn/blog_migrate/a63d9e609d6989be0475d9709b4a9b38.png)
假设类的每一个成员都是参数n+1个的线性分类器函数。
重新定义ERM:从假设类H中选取一个函数,使得分类器的训练误差最小。
![](https://i-blog.csdnimg.cn/blog_migrate/76f779f0ab9fa74b124b4d3054198504.png)
实际上,我们并不关心训练误差的大小,我们关心的是分类器对于未知样本的预测能力,也就是一般误差(generation error):
![](https://i-blog.csdnimg.cn/blog_migrate/f8cb2f860bac68946d0e29c34df6054f.png)
3.联合界(Union bound)
注释:这里的两个定理证明很麻烦,直接用就可以了,联合界定理很简单不用叙述,Hoeffding 不等式表示试验次数越多均值越趋向真实的值,比如实验10000次硬币,那就正反的比例为1:1。
3.1.联合界引理(Union Bound):
令
![](https://i-blog.csdnimg.cn/blog_migrate/ace899d355e89dc3ffd9ed70db6d9a6f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1bdcdee80e897884136b2bd029290e8c.png)
3.2.Hoeffding 不等式:
假设Z1,…,Zm为m个独立同分布(iid,independent and identically distributed)的随机变量,服从于伯努利分布,即
![](https://i-blog.csdnimg.cn/blog_migrate/3f13a2476a8db530705556a0e1394055.png)
![](https://i-blog.csdnimg.cn/blog_migrate/65b5ca8f6447003ef623ca1a01e9a9d6.png)
并且
![](https://i-blog.csdnimg.cn/blog_migrate/5670e56ec1c8d5504ad9ed1bca8726fa.png)
为这些随机变量的均值,给定
![](https://i-blog.csdnimg.cn/blog_migrate/788819a90cf81360ac9c6dff562dac1b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/624262111906aba0d36cc45077421d81.png)
表达的是对真实分布的估计值与真实分布之间的差值大于
![](https://i-blog.csdnimg.cn/blog_migrate/51bf940b503a169ad051c53471158341.png)
考虑具有有限假设类的情形:
![](https://i-blog.csdnimg.cn/blog_migrate/d87106f0f4825e0fc7a714165e065056.png)
ERM会从H中选出具有最小训练误差的假设
![](https://i-blog.csdnimg.cn/blog_migrate/0ebddd2fb93ebb792d67a49710d13d74.png)
注释:对Hoeffding 不等式的简单解释如下-->>
Hoeffding不等式是关于一组随机变量均值的概率不等式。 如果X1,X2,⋯,Xn为一组独立同分布的参数为p的伯努利分布随机变量,n为随机变量的个数。定义这组随机变量的均值为:
![average_x_1](http://dataunion.org/wp-content/uploads/2015/04/average_x_1.png)
对于任意δ>0, Hoeffding不等式可以表示为
![hoeffding_11](http://dataunion.org/wp-content/uploads/2015/04/hoeffding_11.png)
上面的公式似乎写的不是很详细,所以我又从网上copy了一份其他的解释:
Hoeffding不等式:Hoeffding不等式好像有很多个形式,all of statistics里的感觉较难理解,这里写一种好理解的。令X1,…,Xn为独立同分布随机变量,满足ai≤Xi≤bi。则对于任意t>0有
![](https://i-blog.csdnimg.cn/blog_migrate/e8d7b0f7863d1c463c1e0af374a231a3.png)
其中:
![](https://i-blog.csdnimg.cn/blog_migrate/ab425b6c49bcdb5665db80c7756abd36.png)
至于这个公式怎么证明,就不要为难自己了~
而这个公式的用途:
在统计推断中,我们可以利用样本的统计量(statistic)来推断总体的参数(parameter),譬如使用样本均值来估计总体期望。如下图所示,我们从罐子里抽球,希望估计罐子里红球和绿球的比例。
![bin_sample](http://dataunion.org/wp-content/uploads/2015/04/bin_sample1.png)
直觉上,如果我们有更多的样本(抽出更多的球),则样本期望ν应该越来越接近总体期望μ。事实上,这里可以用hoeffding不等式表示如下:
![bin_sample_hoeffding](http://dataunion.org/wp-content/uploads/2015/04/bin_sample_hoeffding.png)
从hoeffding不等式可以看出,当n逐渐变大时,不等式的UpperBound越来越接近0,所以样本期望越来越接近总体期望。
4.一致收敛(Uniform Convergence)
4.1. 训练误差是一个对一般误差的很好的近似
首先证明第一项,从猜想类H中任意选取一个假设
![](https://i-blog.csdnimg.cn/blog_migrate/91b00f453a5ab3515f29fdae8d0a7133.png)
![](https://i-blog.csdnimg.cn/blog_migrate/968cb106268391e408c7ed462d51d03e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e1d9a397d55bedc6aca8e19b6b065146.png)
训练误差为
![](https://i-blog.csdnimg.cn/blog_migrate/38147dd7b09862829ee0a719aedeed28.png)
由Hoeffding不等式可知
![](https://i-blog.csdnimg.cn/blog_migrate/4668a3ecd348eb91402cda42d2b4d5b4.png)
假设m很大,即训练样本很多,那么训练误差将会以很大概率近似于一般误差。
定义事件
![](https://i-blog.csdnimg.cn/blog_migrate/9030a84259ff2e2e14f10958ae169bc8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40d05704af11861ba2ac5f7cc97e5c4d.png)
有
![](https://i-blog.csdnimg.cn/blog_migrate/2a4425bf6073d0cbeb723b7e40220d18.png)
那么对于整个猜想类来说
![](https://i-blog.csdnimg.cn/blog_migrate/68ae95fbab395455d2fec9b496cec21e.png)
=
![](https://i-blog.csdnimg.cn/blog_migrate/485435da11832ab2e9d4a0edfea67b89.png)
![](https://i-blog.csdnimg.cn/blog_migrate/dea4fefe036705af34a26ae931d295fc.png)
两边同时用1减去
![](https://i-blog.csdnimg.cn/blog_migrate/d6a10138c2b17b791d677fa07f5a136f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5f3303f27646ae97a832a64fb351812a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0bb9ab51a45437d44088f3d9d54cc9bc.png)
也就是说,在不小于
![](https://i-blog.csdnimg.cn/blog_migrate/832a944ae50fb7d5aaffb93c4a28bcb4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5eaa344c52ed4da7b5adc1a503e0d960.png)
这被称为 一致收敛。
4.2. ERM选择的假设的一般误差存在上界
定义
![](https://i-blog.csdnimg.cn/blog_migrate/804c6f1f16df32693e3c1abcf2cb1181.png)
那么给定
![](https://i-blog.csdnimg.cn/blog_migrate/eae7e395d98cfd5f29eb14547d3c9f01.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8680589010ef8bf95cf3d912033bae07.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c1efd3f2a2703fbe2fe305a580377be1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/033a2df80edad420a26b2c2c65ddbc77.png)
意思是,只要你的训练集合包含至少上述m这么多的样本,那么概率至少在
![](https://i-blog.csdnimg.cn/blog_migrate/aae519707cc3049e6fbe7e536a5e0006.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9a8fc05c19f6087021b61927ff97fcf6.png)
样本复杂度:为了达到一个特定的错误的界,你需要多大的训练集合。
误差界:
同样的,我们可以固定m和
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/b71583d69e6fba074836a0aa147d9a03.png)
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/c704c5e75450c977ba7883015f7dc695.png)
定义
![](https://i-blog.csdnimg.cn/blog_migrate/834d6abb398b82857c1aa631e269a6ee.png)
![](https://i-blog.csdnimg.cn/blog_migrate/028dd6133758858fae37300ba15d5f13.png)
![](https://i-blog.csdnimg.cn/blog_migrate/7d59bf7dc43a0637bced9ab586d01f0b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/82bca844afcf317ae1ea0e1aa212ee48.png)
![](https://i-blog.csdnimg.cn/blog_migrate/319830bdfd032f526f8c2b38b66db9ba.png)
![](https://i-blog.csdnimg.cn/blog_migrate/132f540a075d10d8e48022ba98c986cf.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d7e3ba5454f82225f4240e04054c88e7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/425784e37a40b214f9340ebde14c591d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f1f4db3b68f377c80b5a0769159cc342.png)
也就是说,我们选择的(具有最小训练误差的)假设的一般误差,和具有最小一般误差的假设的一般误差之间的差值存在
![](https://i-blog.csdnimg.cn/blog_migrate/496a2df850c81f2978660fc5c1495ea7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ef907073244ad0b4c13cc692190b9ca3.png)
直观上,我们可以把第一项
![](https://i-blog.csdnimg.cn/blog_migrate/861949e16ffe2a27d3a05b3abff61f86.png)
![](https://i-blog.csdnimg.cn/blog_migrate/cbafcabf94047dcd47b179c48aebe790.png)
当我们将H替换为更复杂的猜想类H',即H是H'的子集时,第一项只会变的更小,即偏差变小;而由于k的增大,第二项会变的更大,即方差变大。
将一切总结为两个定理如下:
![](https://i-blog.csdnimg.cn/blog_migrate/dc7db391ea055c5a45ddd126ea0a8f09.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4b758c6e0a8b605d3bc1ad86e1365965.png)
第七部分:
7.1VC维空间,VC界讲的很棒
7.2模型选择
7.1.1.交叉验证
训练和测试相互参照
7.1.2特征选择
控制变量,去观察别的变量对结果的影响
7.1.3特征过滤
计算特征Xi和Y的相关程度,然后再通过交叉验证去排除