About no-regret learning

无悔学习方法

About regret

在日常生活中,对绝大多数人来说后悔是常常被提到的一种负面情绪。举个简单的例子,当你准备购买两种股票 A 和 B 的时候,既可以选 A 也可以选 B,但是最后购买了股票 A,结果股票 B 上涨而股票 A 下跌,此时你就会对之前的决策而感到后悔或者说悔恨。在早期对决策的研究中,研究者已经意识到后悔有可能是影响决策的重要情绪。Savage 于 1995 年首先提出了最小化最大后悔原则,这种原则的思想是个体首先计算每个选项对应的可能最大化后悔值,然后从中选出最大化后悔值最小的选项。后悔实际上被定义为被拒绝选项与所选选项的实际结果之间的差值。

About no-regret

一般来讲,采用基于后悔值的学习方法以后,每个智能体根据各个行为的后悔值做出行为选择。如果一种算法能够保证最大后悔值渐进的变为零,那么该种算法就可以被称作无悔学习算法。
最著名的无悔学习算法就是后悔匹配算法(regret matching),在每一个决策时刻,每个智能体按照每个行为的后悔值的概率做出选择,即具有最大概率的行为被选中的机会越大。在多智能体系统中,如果所有的智能体都采用相同的无悔学习算法,例如后悔匹配算法,那么所有智能体的联合行为将渐进地收敛于一组无悔点。换句话说,一组无悔点也可以被看作一种理想情况或者说一种高效的运行环境。在无悔点集合上,每个智能体所得到的平均回报不少于其它行为所能产生的回报。

  • 5
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值