假设有一个无人机取货的活动,在单个无人机的状态下动作为左、右、上、下、抓,抓到货物为reward为50,否则为-1。
在有两个无人机协作的情况下, 每个state两个无人机会分别选取不同的动作
马尔科夫过程如下所示,下标数字代表第几个agent
假设有一个无人机取货的活动,在单个无人机的状态下动作为左、右、上、下、抓,抓到货物为reward为50,否则为-1。
在有两个无人机协作的情况下, 每个state两个无人机会分别选取不同的动作
马尔科夫过程如下所示,下标数字代表第几个agent