无悔学习方法
About regret
在日常生活中,对绝大多数人来说后悔是常常被提到的一种负面情绪。举个简单的例子,当你准备购买两种股票 A 和 B 的时候,既可以选 A 也可以选 B,但是最后购买了股票 A,结果股票 B 上涨而股票 A 下跌,此时你就会对之前的决策而感到后悔或者说悔恨。在早期对决策的研究中,研究者已经意识到后悔有可能是影响决策的重要情绪。Savage 于 1995 年首先提出了最小化最大后悔原则,这种原则的思想是个体首先计算每个选项对应的可能最大化后悔值,然后从中选出最大化后悔值最小的选项。后悔实际上被定义为被拒绝选项与所选选项的实际结果之间的差值。
About no-regret
一般来讲,采用基于后悔值的学习方法以后,每个智能体根据各个行为的后悔值做出行为选择。如果一种算法能够保证最大后悔值渐进的变为零,那么该种算法就可以被称作无悔学习算法。
最著名的无悔学习算法就是后悔匹配算法(regret matching),在每一个决策时刻,每个智能体按照每个行为的后悔值的概率做出选择,即具有最大概率的行为被选中的机会越大。在多智能体系统中,如果所有的智能体都采用相同的无悔学习算法,例如后悔匹配算法,那么所有智能体的联合行为将渐进地收敛于一组无悔点。换句话说,一组无悔点也可以被看作一种理想情况或者说一种高效的运行环境。在无悔点集合上,每个智能体所得到的平均回报不少于其它行为所能产生的回报。