课程简介
Geoffrey Hinton 2012年在coursera上开的网课:Neural Networks for Machine Learning。
课程笔记
以下内容基于一些基础知识点:例如MAP(Maximize a Posterior) ,正则项的贝叶斯解释等等。此部分内容因为涉及过多公式,暂时跳过,请参考Hinton Neural Network的课程9e或者自行搜索。
关于贝叶斯理论的部分可以参考Hinton Nerual Networks课程笔记9d:贝叶斯方法入门。
1. 正则项的贝叶斯解释以及系数组成
最终公式就是左下角的那个公式,其中C表示最后需要最小化的cost,E则是最小误差平方和等loss函数,而最后一项就是正则项。可以看到正则项系数由数据的方差和权重的方差组合而成。
2. Mackay方法
本质上就是在每次迭代之前估算数据以及权重的方差,从而设置正则项系数。
此方法Hinton认为Practical,虽然理论上有些dirty。Mackay于1990提出此方法,并用此方法赢得了几个比赛。
2.1. 数据方差的估算方法
就是误差的方差,即( yc−tc )的方差。
2.2. 权重方差的估算方法
初始的时候是人为自行设定,之后则为每次迭代之后求得的权重W的方差。
2.3. 缺点
理论上很dirty,是“经验贝叶斯理论”,即通过经验法求取贝叶斯先验(用数据求先验)。
2.4. 优点
- 不需要验证集来对正则项系数进行验证。
- 可以轻易的对于模型内部不同模块采用不同的正则项系数(如果采用交叉验证的话会非常非常麻烦)