1. regularizationis used to control the over-fitting phenomenon
过拟合时,w的值会很大,引入后面的正则项可以防止w过大
2.
3.prior probability and posterior probability
4.累积分布函数P(x) 求导后 得到 概率密度函数p(x)
5.贝叶斯学派和频率学派的区别之一:特别重视先验信息对于inference的影响
共轭先验:采用共轭先验的原因是可以使得先验分布和后验分布的形式相同,这样一方面合符人的直观(它们应该是相同形式的)另外一方面是可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。
后验分布=(似然函数*先验分布)/p(D)
p(D) normalization constant,确保后验分布的概率总和等于1
似然函数p(D|w) expresses how probable the observed data set is for different settings of the parameter vector w
计算p(D|w),频率派:视w为固定的参数,误差根据不同的数据集D(boostrap)来计算。
而贝叶斯方法,数据集D是固定的,只有一份。
贝叶斯缺点:choice of prior distribution
如果先验概率和似然函数可以使得先验分布和后验分布有相同的形式(如同为指数族分布),那么就称先验分布与似然函数是共轭的
先验概率称为似然函数的共轭先验
详细的可参考http://wenku.baidu.com/view/a542dbf2770bf78a6529546a.html?st=1