强化学习 --baseline项目之gym中的Atari游戏的环境重写

最新推荐文章于 2024-03-28 10:18:58 发布

可可亚西村的橘子

最新推荐文章于 2024-03-28 10:18:58 发布

阅读量5.2k

点赞数 8

分类专栏：强化学习

本文链接：https://blog.csdn.net/qq_41832757/article/details/104390909

版权

gym中集成的atari游戏可用于DQN训练，但是操作还不够方便，于是baseline中专门对gym的环境重写，以更好地适应dqn的训练

从源码中可以看出，只需要重写两个函数 reset（）和step() ，由于render（）没有被重写，所以画面就没有被显示出来了

1.NoopResetEnv（）函数，功能：前30帧画面什么都不做，跳过。这有利于增加初始画面的随机性，不容易陷入过拟合

class NoopResetEnv(gym.Wrapper):
    def __init__(self, env, noop_max=30):
        """Sample initial states by taking random number of no-ops on reset.
        No-op is assumed to be action 0.
        """
        gym.Wrapper.__init__(self, env)
        self.noop_max = noop_max
        self.override_num_noops = None
        self.noop_action = 0
        assert env.unwrapped.get_action_meanings()[0] == 'NOOP'

    def reset(self, **kwargs):
        """ Do no-op action for a number of steps in [1, noop_max]."""
        self.env.reset(**kwargs)
        if self.override_num_noops is not None:
            noops = self.override_num_noops
        else:
            noops = self.unwrapped.np_random.randint(1, self.noop_max + 1) #pylint: disable=E1101
        assert noops > 0
        obs = None
        for _ in range(noops):
            obs, _, done, _ = self.env.step(self.noop_action)
            if done:
                obs = self.env.reset(**kwargs)
        return obs

    def step(self, ac):
        return self.env.step(ac)

2.FireResetEnv() 功能：一直step（）到‘开火’为止

class FireResetEnv(gym.Wrapper):
    def __init__(self, env):
        """Take action on reset for environments that are fixed until firing."""
        gym.Wrapper.__init__(self, env)
        assert env.unwrapped.get_action_meanings()[1] == 'FIRE'
        assert len(env.unwrapped.get_action_meanings()) >= 3

    def reset(self, **kwargs):
        self.env.reset(**kwargs)
        obs, _, done, _ = self.env.step(1)
        if done:
            self.env.reset(**kwargs)
        obs, _, done, _ = self.env.step(2)
        if done:
            self.env.reset(**kwargs)
        return obs

    def step(self, ac):
        return self.env.step(ac)

3.EpisodicLifeEnv（）功能：一般一个游戏玩家往往有多条命，但是为了更好的训练，该函数设置死掉一次就直接结束游戏，以便ai加强避免死亡的训练

class EpisodicLifeEnv(gym.Wrapper):
    def __init__(self, env):
        """Make end-of-life == end-of-episode, but only reset on true game over.
        Done by DeepMind for the DQN and co. since it helps value estimation.
        """
        gym.Wrapper.__init__(self, env)
        self.lives = 0
        self