用多项式分布采样代替epsilon-greedy

最新推荐文章于 2024-03-27 14:53:59 发布

轻羽羽

最新推荐文章于 2024-03-27 14:53:59 发布

阅读量863

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/qq_25841513/article/details/104742238

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、epsilon-greedy

        if explore:
            if np.random.rand() <= self.epsilon:
                return random.randrange(self.action_size)
            act_values = self.model.predict(state)
        else:
            act_values = self.model.predict(state)
        return np.argmax(act_values[0])  # returns action

二、多项式分布采样

        act_values = self.model.predict(state)/2
        if explore:
            act = np.random.multinomial(1, act_values[0])
            return np.argmax(act)
        return np.argmax(act_values[0])  # returns action