Atari 游戏训练--5. 经验回放(Experience Reply) 在目标网络(Target Network)下的学习过程

最新推荐文章于 2024-06-24 16:52:19 发布

Enzo 想砸电脑

最新推荐文章于 2024-06-24 16:52:19 发布

阅读量524

点赞数

文章标签：深度学习 pytorch

本文链接：https://blog.csdn.net/weixin_37804469/article/details/105458565

版权

Atari 游戏训练专栏收录该内容

3 篇文章 0 订阅

订阅专栏

待完善。。。

详解：

1.在收集一定数量的的experience后，随机提取batch size个样本进行Q-learning

def learn(self, model, target_model, memory, gamma, batch_size):
    samples = random.sample(memory, batch_size)   # shape_samples  = (64, 5)

2.将训练需要的元素（state， action，rewards，next_state，dones）按照字段分别提出

    states, actions, rewards, next_states, dones = map(np.array, zip(*samples)) #shape_next_states  = (64, 4, 84, 84)
    print('shape_states  =', np.shape(states))
    print('shape_actions  =', np.shape(actions))
    print('shape_next_states  =', np.shape(next_states))
    print('shape_dones  =', np.shape(dones))

    #shape_states  = (64, 4, 84, 84)
    #shape_actions  = (64,)
    #shape_next_states  = (64, 4, 84, 84)
    #shape_dones  = (64,)

3.

    next_Qs = target_model.forward(torch.from_numpy(next_states))    #shape_next_Qs  = torch.Size([64, 9])

4.

    next_Q = np.amax(next_Qs.detach().numpy(), axis =1)      # shape_next_Q  = (64,)

5.

    print('dones  =', dones)
    print('np.invert(dones) =', np.invert(dones).astype(np.float))
    
    #dones  = [False False...False False False]
    #np.invert(dones) = [1. 1. ... 1. 1. 1.]

    targets = rewards + np.invert(dones).astype(np.float)*gamma*next_Q
    #shape_targets = (64,)

整段代码

def learn(self, model, target_model, memory, gamma, batch_size):
            samples = random.sample(memory, batch_size)    # shape_samples  = (64, 5)           
            states, actions, rewards, next_states, dones = map(np.array, zip(*samples)) #shape_next_states  = (64, 4, 84, 84)
            next_Qs = target_model.forward(torch.from_numpy(next_states))    #shape_next_Qs  = torch.Size([64, 9])           
            next_Q = np.amax(next_Qs.detach().numpy(), axis =1)      # shape_next_Q  = (64,)
            
            print('dones  =', dones)
            print('np.invert(dones) =', np.invert(dones).astype(np.float))
            targets = rewards + np.invert(dones).astype(np.float)*gamma*next_Q

Enzo 想砸电脑

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Atari 游戏训练--5. 经验回放(Experience Reply) 在目标网络(Target Network)下的学习过程

待完善。。。详解：1.在收集一定数量的的experience后，随机提取batch size个样本进行Q-learningdef learn(self, model, target_model, memory, gamma, batch_size): samples = random.sample(memory, batch_size) # shape_samples = (...
复制链接

扫一扫