考虑胆小鬼博弈的收益矩阵:
当双方选择胆小(C)时总体收益达到最大。
对于纳什均衡可以求出(设智能体1选择C的概率为p):
当两个智能体选择“ C”的概率均为 0.75,并且选择"D" 的概率为 0.25 时,两个智能体达到了混合策略纳什均衡,其中每个智能体获得的期望效益价值为 4.5。
两个智能体总效益之和为 9,小于所有两个智能体总效益之和的最大可能值 10。
关联性均衡的目的就是通过设定某种规则,使得最后双方的策略接近于A点的策略。
当两个智能体相关联并且设定每种情况的可能性为 v = [1/3, 1/3, 1/3, 0]时,两个智能体的总效用价值为 9.3333,比纳什均衡的结果要高。
此时对应的均衡点就移动到了F点。更接近理论最优。
具体实现计算如下:
假设当智能体 1 宣布将选择“ C”时,为了满足每种情况的可能性保持为 v,其对手智能体 2 需要采取混合策略,其选择“ C”和“ D”的可能性分别均为 0.5。
那么当智能体 1 真实选择“ C”的时候,能获得的效益价值为 0.5 × 5 + 0.5 × 3 = 4。
但如果智能体 1 私自改变了决策动作“ D”,在智能体 2 策略不发生改变的情况下,智能体 1 能够收到的效益价值为 0.5 × 6 + 0.5 × 0 = 3,低于选择“ C”情况下的效益价值 4。
因此,在假设两个智能体服从相关联分布的前提下,每个智能体不能改变当前相关联的策略而获得更高的效用价值。
最后给出数学形式的描述:
一般来说,在图中 ABC 区域中,只要满足上式所示的关系,
其结果均可达到关联性均衡。