论文笔记_A Decentralized Communication Policy for Multi Agent Multi Armed

最新推荐文章于 2025-04-03 19:48:35 发布

jsjxysy

最新推荐文章于 2025-04-03 19:48:35 发布

阅读量171

点赞数

分类专栏：论文文章标签：算法概率论

本文链接：https://blog.csdn.net/qq_41815611/article/details/112503201

版权

论文专栏收录该内容

1 篇文章

订阅专栏

基础符号

符号	说明
$t$	时刻
$\in \{1,2,3...n_0\}$	选择（options、levels)
$i_*$	最佳选择（optimal option）
$\in \{1,2,3...n_A\}$	玩家（agents）
$\mathcal N_j^t$	与玩家 $j$ 在时刻 $t$ 进行交流的邻居集合（ $\in \mathcal N_j^t$ ）
$\varphi _i^t \in \{1,2,3...n_0\}$	玩家 $i$ 在时刻 $t$ 做出的选择
$X_i^t$	在时刻 $t$ 选择了 $i$ ，对应的收益（reward）
$\Pi_{\{\varphi _j^t=i\}} \in \{0,1\}$	玩家 $j$ 在时刻 $t$ 是否选择了 $i$
$\epsilon _{ij}^t \triangleq \left\{\begin{matrix}1, & if \left ( \sum_{k \in \mathcal N_j^t} \Pi_{\{\varphi _k^t=i\}} \right ) \neq 0\\0, & if \left ( \sum_{k \in \mathcal N_j^t} \Pi_{\{\varphi_k^t=i\}} \right ) = 0\end{matrix}\right.$	玩家 $j$ 及其邻居是否有人在时刻 $t$ 选择了 $i$
$N_{ij}(t) \triangleq \sum_{v=1}^t \epsilon _{ij}^v=N_{ij}(t-1)+\epsilon _{ij}^t$	玩家 $j$ 及其邻居在时间 $[1, 2 . . . t]$ 内选择 $i$ 的总次数
$S_j(T) \triangleq \sum_{i=1}^{n0}\sum_{t=1}^{T}X_i^t\Pi_{\{\varphi _j^t=i\}}$	累计收益（cumulative reward）
$R_j(T) \triangleq E\left (\sum_{i \neq i_}^{n_0} \sum_{t=1}^{T}(X_{i_}^t-X_i^t) \Pi_{\{\varphi _j^t=i\}}) \right )$	损失（regret）

每个选择在某一时刻对应的收益是由高斯分布（ $\mu, \nu$ ）确定的，与玩家无关，每个玩家在同一时刻选择同一个，收益是一样的
目标：累积收益的期望值 $E (X)$ 达到最大、损失regret达到最小
变量加上标 $s$ 表示自我的，即玩家 $j$ 自己相关的，如 $R_j^s(T)$ 、 $S_j^s(T)$ 、 $N_{ij}^s(T)$ $S_{ij}^s(T) \triangleq \sum_{t=1}^TX_i^t\Pi_{\{\varphi _j^t=i\}} \\ R_{ij}^s(T)= E\left ( \sum_{t=1}^{T}(X_{i_*}^t-X_i^t) \Pi_{\{\varphi _j^t=i\}}) \right ) \leq \bar{\Delta}E \left(\sum_{t=1}^{T} \Pi_{\{\varphi _j^t=i\}} \right)=\bar{\Delta}E \left(N_{ij}^s(T) \right)$ 其中有 $\Delta \leq E(X_{i*}^r)-E(X_{i}^r) \leq \bar{\Delta}$ ，即 $\bar{\Delta}$ 是 $E(X_{i*}^r)-E(X_{i}^r)$ 的最大值
变量加上标 $c$ 表示邻居的（communication），即除 $j$ 本身以外的邻居，如 $R_j^c(T)$ 、 $S_j^c(T)$ 、 $N_{ij}^c(T)$
如果有多个邻居选择了 $i$ ，则只计一次 $S_{ij}^c(T) \triangleq \sum_{t=1}^TX_i^t\Pi_{\{\varphi _j^t \neq i \, \&\, \epsilon _{ij}^t=1 \}} \\ R_{ij}^c(T)= E\left ( \sum_{t=1}^{T}(X_{i_*}^t-X_i^t) \Pi_{\{\varphi _j^t \neq i \, \&\, \epsilon _{ij}^t=1 \}}) \right ) \leq \bar{\Delta}E \left(\sum_{t=1}^{T} \Pi_{\{\varphi _j^t \neq i \, \&\, \epsilon _{ij}^t=1 \}} \right)$

UCB算法

进行选择

每个选择的得分由两部分决定， $e x p l o i t a t i o n$ 和 $e x p l o r a t i o n$ $Q_{ij}^t=\widehat{X}_{ij}^t+C_{ij}^t$ 其中 $C_{ij}^t=\sqrt{\frac{\Psi _{jk}(t)}{N_{ijk}(t)}}$ ， $\Psi _{jk}(t) \approx log(t)$

$e x p l o i t a t i o n$ 是玩家 $i$ 对选择 $j$ 的收益的估计值，是 $j$ 和邻居在时间 $[1, 2 . . . t]$ 内对于 $j$ 的总收益的平均值 $\widehat{X}_{ij}^t \triangleq \frac{1}{N_{ij}(t)} \left ( \sum_{\tau =1}^t X^{\tau }_i \epsilon _{ij}^{\tau } \right )$

寻找邻居

在时刻 $t$ ，玩家 $j$ 对于选择 $i$ 和另一个玩家 $k$ 的得分定义为 $Q_{ijk}^t=\widehat{X}_{ijk}^t+\sqrt{\frac{\Psi _{jk}(t)}{N_{ijk}(t)}}$ 其中 $\widehat{X}_{ijk}^t$ 是 $j$ 从 $k$ 处获取的对于选择 $i$ 的收益平均值

玩家 $j$ 每个时刻要选择 $n_j$ （预先定义好的量）个邻居，首先在每个 $k$ 内部，对 $j$ 进行排序，选择一个最大的值作为 $k$ 的得分，之后对 $k$ 进行排序，选择 $Top(n_j)$ 作为本次选择的邻居
每轮与邻居交换的信息包括邻居的选择和相应的收益
随着时间的推移，玩家会趋向于 $e x p l o i t a t i o n$ ，而选择邻居时，希望选择 $e x p l o r a t i o n$ 程度更大的玩家

部分代码

   self.k = [ (1/((8*self.reward_variance[i])**2)*2) for i in range(self.no_bandits)]

def pick(self):

    Qij_T = [0 for i in range(self.no_bandits)]
    for i in range(self.no_bandits):

        k = self.k[i]
        alpha = 3/(2*k)
        gamma = alpha*log(self.T)
        Qij_T[i] = self.X_ij_T[i] + sqrt(gamma/self.Nij_T[i])
    self.Q = Qij_T
    sorted_choice = argsort(Qij_T)

    m = sorted_choice[-1]
    m_c = 1
    for i in range(1, self.no_bandits):

        if Qij_T[sorted_choice[-(i+1)]] != Qij_T[m]:
            break
        else:
            m_c += 1

    if m_c == 1:  # 只有一个最大值
        index = 1
    else:  # 有多个最大值，随机选择一个
        index = random.randint(1, m_c)
    choice = sorted_choice[-index]
    return choice