遗憾/虚拟遗憾最小化算法

遗憾值最小化

遗憾值最小化算法:根据过去博弈的遗憾程度来选择将来的动作

简单举例

剪刀石头布游戏,决策集为[剪刀,石头,布]。第一局,对方出剪刀,我出布,此时盈利-1,后悔值如何计算?剪刀:盈利0,后悔值1,;石头:盈利1,后悔值2。后悔值数组为[1,2,0]。下次决策概率为[1/3 , 2/3 , 0 ] 

数学表达

σ表示所有玩家的策略组,σi表示第i个玩家采用的策略,σ-i表示其他玩家的策略

∑i表示玩家i的策略空间,σi(Ii)是玩家i在动作集A(Ii)上的概率分布函数,Ii是信息集

πσi(h)代表玩家i在策略σ下,使h行动序列发生的概率

ui表示玩家i的收益函数,Z->R,Z为终止序列集合,即截止到Z,玩家i的收益

ui(σ)表示在σ策略下,玩家i所能得到的期望收益,ui(σ)=∑(h∈z) ui(h)*πσ(h)

所有玩家都是最佳反应策略时,达到纳什均衡。任意一个玩家改变策略,都会使收益减小。

ε-纳什均衡

平均遗憾值:连续t次博弈,累加每次博弈中与最佳策略收益值的差,求平均

累加遗憾:累计到T轮次,最优策略μ(σi,σ-i)收益与当前决策收益差值的累加

T+1轮次玩家i选择策略a的概率:第T轮次选择策略a时的遗憾值/第T轮次所有策略遗憾值的和

石头剪刀布游戏的数学表示?

玩家A、B、C

策略空间:石头R、布P、剪刀S

第一局 玩家A出石头R,玩家B 出布P

玩家A收益 μA(R,P)=-1 玩家B收益 μB(R,P)=1

对于A来说,在B策略不变的情况下(出布P), μA(P,P)=0, μA(S,P)=-1

A没有出布的遗憾值为 μA(P,P)- μA(R,P)=1

A没有出剪刀的遗憾值为 μA(S,P)- μA(R,P)=2

下一局出石头R、布P、剪刀S的概率就是 0  1/3  2/3,下一局他就更倾向于出剪刀

多轮迭代石头剪刀布

假设第一轮A石头B布,第二轮A剪刀B石头,第三轮A布B布

每轮遗憾值/策略石头剪刀
第一轮021
第二轮102
累加悔值regret2A123
策略概率1/61/31/2
第三轮-110
累加悔值033
策略概率01/21/2

实际使用中,可以通过多次模拟迭代累加遗憾值找到每个玩家在每一轮次的最优策略,但是当博弈状态空间呈指数增长时,对一个规模巨大的博弈树无法采用最小遗憾算法。

虚拟遗憾最小化算法

非完全信息博弈,无法遍历后悔值-->虚拟遗憾值最小化算法CFR

数学表达(笔记记录)

集合A:博弈所有玩家所能采用的行为集(如出石头、出剪刀或出布三种行为)
I为信息集:包含博弈规则以及玩家采取的历史行动,在信息集I下所能采取的行为集合记为A(I)

已经产生了一个行动序列h,计算其他玩家在产生这个行动序列h时


的概率值是多少,乘以h->z终止局势的概率,再乘以玩家i在终止局势z的概率。遍历所有的终止局势,累加。

 例子:库恩扑克

库恩扑克的信息集有12个:{1,1P,1B,1PB,2 , 2P,2B,2PB,3 , 3P ,3B , 3PB}

此问题中每个信息集的路径均唯一(所有信息集对应唯一的行动序列)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值