经验风险最小化与结构风险最小化笔记

最新推荐文章于 2024-03-05 19:11:34 发布

大鹏的NLP博客

最新推荐文章于 2024-03-05 19:11:34 发布

阅读量1.3w

点赞数 1

分类专栏：机器学习文章标签：经验风险结构风险

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/philosophyatmath/article/details/51015222

版权

机器学习专栏收录该内容

49 篇文章 2 订阅

订阅专栏

置信风险与两个量有关，一是样本数量，显然给定的样本数量越大，我们的学习结果越有可能正确，此时置信风险越小；二是分类函数的VC维，显然VC维越大，推广能力越差，置信风险会变大。

VC置信范围(VC confidence)：学习机器的VC维及训练样本数有关。 VC维反映了函数集的学习能力，VC维越大则学习机器越复杂(容量越大)

泛化误差界的公式为：

$R(w)\le Remp(w)+\phi(h/n)$
公式中R(w)就是真实风险，Remp(w)就是经验风险，Ф(n/h)就是置信风险。统计学习的目标从经验风险最小化变为了寻求经验风险与置信风险的和最小，即结构风险最小。

结构风险最小化(SRM)的基本思想

所谓的结构风险最小化就是在保证分类精度（经验风险）的同时，降低学习机器的 VC 维，可以使学习机器在整个样本集上的期望风险得到控制。

传统机器学习方法中普遍采用的经验风险最小化原则在样本数目有限时是不合理的,因此，需要同时最小化经验风险和置信范围。

机器学习过程不但要使经验风险最小，还要使VC维尽量小以缩小置信范围，才能取得较小的实际风险，即对未来样本有较好的推广性。

统计学习理论提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小。这种思想称作结构风险最小化(Structural Risk Minimization)，即SRM准则。

在有限训练样本下，学习机器的VC维越高则置信范围越大,真实风险与经验风险之间可能的差别越大.这就是为什么会出现过学习现象的原因。

结合统计学习理论中关于推广性界的知识，我们可以采用另一种策略来解决上述问题：首先把函数集分解为一个函数子集序列，使得各个子集能够按照置信范围的大小进行排列，也就是按照VC维的大小排列，这样，在同一个子集中的置信范围就相同。在同一个子集中寻找最小经验风险，通常它随着子集复杂度的增加而减小。选择最小经验风险与置信范围之和最小的函数，就是要求的最优函数。这种思想被称为有序风险最小化或者结构风险最小化（Structure Risk Minimization,SRM）。

在结构风险最小化原则下，一个分类器的设计过程包含以下两方面的任务：

（1）选择一个适当的函数子集，使它对问题来说具有最优的分类能力；

（2）从这个函数子集中选择一个判别函数，使得经验风险最小；

支持向量机是一个比较好的实现了有序风险最小化思想的方法。

大鹏的NLP博客

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
经验风险最小化与结构风险最小化笔记

置信风险与两个量有关，一是样本数量，显然给定的样本数量越大，我们的学习结果越有可能正确，此时置信风险越小；二是分类函数的VC维，显然VC维越大，推广能力越差，置信风险会变大。VC置信范围(VC confidence)：学习机器的VC维及训练样本数有关。 VC维反映了函数集的学习能力，VC维越大则学习机器越复杂(容量越大)泛化误差界的公式为：R(w)≤Remp(w)+ϕ(h/n)R(w)
复制链接

扫一扫

专栏目录

大鹏的NLP博客 CSDN认证博客专家 CSDN认证企业博客

码龄13年

251: 原创

2万+: 周排名

3307: 总排名

109万+: 访问

: 等级

1万+: 积分

209: 粉丝

261: 获赞

65: 评论

784: 收藏

私信

关注

热门文章

分类专栏

最新评论

Self -Attention、Multi-Head Attention、Cross-Attention
大鹏的NLP博客: 重复N组
Self -Attention、Multi-Head Attention、Cross-Attention
创元至境妙有天尊: 豁然开朗，总结的很好。
Self -Attention、Multi-Head Attention、Cross-Attention
qq_39231113: 你好，感谢你的文章！我想请问一下，Transformer结果图的decoder中，每解码一个词时，将”解码多头自注意力+交叉注意力+前馈和正则化“作为一个操作组，需要重复这个操作组多次（设为N），那么是否只需要有一个操作组的网络参数就可以了，即这个操作组网络是可以被重复使用N次的？还是说需要构建不同的N个操作组网络，参数量*N？还是说由于自注意力机制每次得到的结果的维度是可能变得，而这个操作组中也包含自注意力，所以还是得构建多个不同操作组网络？
REST中上传文件简单的实现笔记
qq_41915906: 我的还是乱码，很奇怪，utf-8全乱码，gbk大部分正常，某几个字乱码
Self -Attention、Multi-Head Attention、Cross-Attention
大鹏的NLP博客: 包含A(Q)的B(V)的信息。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。