正则化准则就是在误差准则后面加上正则化项——它反映模型标准差越小越好。这意思是你撒网盖住鱼了,但是覆盖面积越小越好。网盖住整个池塘,就等于没网。用Popper理论解释就是逻辑概率越小越好,因为检验更严厉。 永真句不提供信息。
看到这篇文章:
从贝叶斯角度深入理解正则化 http://blog.csdn.net/zhuxiaodong030/article/details/54408786
初看觉得很有新意。但是仔细思考, 不对啊, 要用样本优化的是似然函数中的参数啊, 怎么能优化先验参数呢?先验参数和样本无关啊!
我的一篇文章讲到这个问题, 摘录如下:
把真值函数或隶属函数带进贝叶斯公式:
(3.5)
其中T(.|X)是隶属函数, T(.)是逻辑概率。
在Shannon信息论中,只有统计概率,没有逻辑概率,也没有预测的概率(似然度). 下面语义信息测度同时用到这三种概率[6]. yj提供关于xi的信息量就是对数标准似然度:
(3.8)