About no-regret learning

最新推荐文章于 2024-07-10 08:41:33 发布

Leo_Mh

最新推荐文章于 2024-07-10 08:41:33 发布

阅读量1.3k

点赞数 5

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36691985/article/details/118330147

版权

无悔学习方法

About regret

在日常生活中，对绝大多数人来说后悔是常常被提到的一种负面情绪。举个简单的例子，当你准备购买两种股票 A 和 B 的时候，既可以选 A 也可以选 B，但是最后购买了股票 A，结果股票 B 上涨而股票 A 下跌，此时你就会对之前的决策而感到后悔或者说悔恨。在早期对决策的研究中，研究者已经意识到后悔有可能是影响决策的重要情绪。Savage 于 1995 年首先提出了最小化最大后悔原则，这种原则的思想是个体首先计算每个选项对应的可能最大化后悔值，然后从中选出最大化后悔值最小的选项。后悔实际上被定义为被拒绝选项与所选选项的实际结果之间的差值。

About no-regret

一般来讲，采用基于后悔值的学习方法以后，每个智能体根据各个行为的后悔值做出行为选择。如果一种算法能够保证最大后悔值渐进的变为零，那么该种算法就可以被称作无悔学习算法。
最著名的无悔学习算法就是后悔匹配算法(regret matching)，在每一个决策时刻，每个智能体按照每个行为的后悔值的概率做出选择，即具有最大概率的行为被选中的机会越大。在多智能体系统中，如果所有的智能体都采用相同的无悔学习算法，例如后悔匹配算法，那么所有智能体的联合行为将渐进地收敛于一组无悔点。换句话说，一组无悔点也可以被看作一种理想情况或者说一种高效的运行环境。在无悔点集合上，每个智能体所得到的平均回报不少于其它行为所能产生的回报。

关注

5
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
About no-regret learning

无悔学习方法About regret在日常生活中，对绝大多数人来说后悔是常常被提到的一种负面情绪。举个简单的例子，当你准备购买两种股票 A 和 B 的时候，既可以选 A 也可以选 B，但是最后购买了股票 A，结果股票 B 上涨而股票 A 下跌，此时你就会对之前的决策而感到后悔或者说悔恨。在早期对决策的研究中，研究者已经意识到后悔有可能是影响决策的重要情绪。Savage 于 1995 年首先提出了最小化最大后悔原则，这种原则的思想是个体首先计算每个选项对应的可能最大化后悔值，然后从中选出最大化后悔值最小的
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。