从语义信息论看正则化准则

最新推荐文章于 2024-07-13 13:16:30 发布

lcguang老鲁

最新推荐文章于 2024-07-13 13:16:30 发布

阅读量813

点赞数

分类专栏：语义信息和机器学习文章标签：语义信息正则化准则假设检验机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lcguang1955/article/details/79420093

版权

本文探讨了正则化准则在机器学习中的作用，通过从贝叶斯角度出发，结合语义信息理论，解释了正则化如何影响模型的逻辑概率和信息量。文章指出，正则化项反映了模型的偏差与信息之间的关系，与传统的误差加正则化准则相类似，其中误差项对应H(θ|X)，正则化项对应H(θ)。

摘要由CSDN通过智能技术生成

正则化准则就是在误差准则后面加上正则化项——它反映模型标准差越小越好。这意思是你撒网盖住鱼了，但是覆盖面积越小越好。网盖住整个池塘，就等于没网。用Popper理论解释就是逻辑概率越小越好，因为检验更严厉。永真句不提供信息。

看到这篇文章：

从贝叶斯角度深入理解正则化 http://blog.csdn.net/zhuxiaodong030/article/details/54408786

初看觉得很有新意。但是仔细思考，不对啊，要用样本优化的是似然函数中的参数啊，怎么能优化先验参数呢？先验参数和样本无关啊！

我的一篇文章讲到这个问题，摘录如下：

把真值函数或隶属函数带进贝叶斯公式：

(3.5)

其中T(.|X)是隶属函数， T（.）是逻辑概率。

在Shannon信息论中，只有统计概率，没有逻辑概率，也没有预测的概率(似然度). 下面语义信息测度同时用到这三种概率^[6]. y_j提供关于x_i的信息量就是对数标准似然度：

(3.8)

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。