论文笔记_A Decentralized Communication Policy for Multi Agent Multi Armed

基础符号

符号 说明
t t t 时刻
i ∈ { 1 , 2 , 3... n 0 } i \in \{1,2,3...n_0\} i{ 1,2,3...n0} 选择(options、levels)
i ∗ i_* i 最佳选择(optimal option)
j ∈ { 1 , 2 , 3... n A } j \in \{1,2,3...n_A\} j{ 1,2,3...nA} 玩家(agents)
N j t \mathcal N_j^t Njt 与玩家 j j j在时刻 t t t进行交流的邻居集合( j ∈ N j t j \in \mathcal N_j^t jNjt
φ i t ∈ { 1 , 2 , 3... n 0 } \varphi _i^t \in \{1,2,3...n_0\} φit{ 1,2,3...n0} 玩家 i i i在时刻 t t t做出的选择
X i t X_i^t Xit 在时刻 t t t选择了 i i i,对应的收益(reward)
Π { φ j t = i } ∈ { 0 , 1 } \Pi_{\{\varphi _j^t=i\}} \in \{0,1\} Π{ φjt=i}{ 0,1} 玩家 j j j在时刻 t t t是否选择了 i i i
ϵ i j t ≜ { 1 , i f ( ∑ k ∈ N j t Π { φ k t = i } ) ≠ 0 0 , i f ( ∑ k ∈ N j t Π { φ k t = i } ) = 0 \epsilon _{ij}^t \triangleq \left\{\begin{matrix}1, & if \left ( \sum_{k \in \mathcal N_j^t} \Pi_{\{\varphi _k^t=i\}} \right ) \neq 0\\0, & if \left ( \sum_{k \in \mathcal N_j^t} \Pi_{\{\varphi_k^t=i\}} \right ) = 0\end{matrix}\right. ϵijt1,0,if(kNjtΠ{ φkt=i})=0if(kNjtΠ{ φkt=i})=0 玩家 j j j及其邻居是否有人在时刻 t t t选择了 i i i
N i j ( t ) ≜ ∑ v = 1 t ϵ i
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值