强化学习Q-Learning算法实践

Eliza_Her

已于 2022-02-20 15:47:00 修改

阅读量3.7k

点赞数

分类专栏：强化学习文章标签：算法强化学习

于 2022-02-19 17:08:47 首次发布

本文链接：https://blog.csdn.net/Eliza_Her/article/details/122931704

版权

强化学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

Q-Learning算法与Sarsa算法对比

相同点：

1. 都属于基于价值（value-based）算法的分类，都不需要神经网络。

2. 基本公式相同：

不同点：

1. Sarsa属于on-policy算法，Q-Learning属于off-policy算法。Q-Learning能够做出更大胆的决策。

On-policy和off-policy区别在于，学习（learn）的时候off-policy并不需要传进next action（A’），如下图。

2. 因为算法不同，所以代码细节和具体公式存在区别。

练习背景

寻路游戏，学习到达终点而不掉进黑框的可行路径（但是不一定是最短可行路径）。

源码路径：百度PARL包，examples\tutorials\lesson2\q-learning

源码分析

包含三个文件：gridworld.py、agent.py、train.py

GRIDWORLD

提供寻路游戏的虚拟环境Environment，封装了State、Action、Reward和可视化界面，略。

AGENT

① 根据Q表格选动作，该部分与Sarsa完全一致

class QLearningAgent(object):
    def __init__(self,
                 obs_n,
                 act_n,
                 learning_rate=0.01,
                 gamma=0.9,
                 e_greed=0.1):
        self.act_n = act_n  # 动作维度，有几个动作可选
        self.lr = learning_rate  # 学习率
        self.gamma = gamma  # reward的衰减率
        self.epsilon = e_greed  # 按一定概率随机选动作
        self.Q = np.zeros((obs_n, act_n))

    # 根据输入观察值，采样输出的动作值，带探索
    def sample(self, obs):
        if np.random.uniform(0, 1) < (1.0 - self.epsilon):  #根据table的Q值选动作
            action = self.predict(obs)
        else:
            action = np.random.choice(self.act_n)  #有一定概率随机探索选取一个动作
        return action

    # 根据输入观察值，预测输出的动作值
    def predict(self, obs):
        Q_list = self.Q[obs, :]
        maxQ = np.max(Q_list)
        action_list = np.where(Q_list == maxQ)[0]  # maxQ可能对应多个action
        action = np.random.choice(action_list)
        return action

② 更新Q表格，该部分与Sarsa完全一致

    # 学习方法，也就是更新Q-table的方法
    def learn(self, obs, action, reward, next_obs, done):
        """ off-policy
            obs: 交互前的obs, s_t
            action: 本次交互选择的action, a_t
            reward: 本次动作获得的奖励r
            next_obs: 本次交互后的obs, s_t+1
            done: episode是否结束
        """
        predict_Q = self.Q[obs, action]
        if done:
            target_Q = reward  # 没有下一个状态了
        else:
            target_Q = reward + self.gamma * np.max(
                self.Q[next_obs, :])  # Q-learning
        self.Q[obs, action] += self.lr * (target_Q - predict_Q)  # 修正q

Train

1. 运行的代码，该部分与Sarsa完全一致

def main():
    # env = gym.make("FrozenLake-v0", is_slippery=False)  # 0 left, 1 down, 2 right, 3 up
    # env = FrozenLakeWapper(env)

    env = gym.make("CliffWalking-v0")  # 0 up, 1 right, 2 down, 3 left
    env = CliffWalkingWapper(env)

    agent = QLearningAgent(
        obs_n=env.observation_space.n,
        act_n=env.action_space.n,
        learning_rate=0.1,
        gamma=0.9,
        e_greed=0.1)

    is_render = False
    for episode in range(500):
        ep_reward, ep_steps = run_episode(env, agent, is_render)
        print('Episode %s: steps = %s , reward = %.1f' % (episode, ep_steps,
                                                          ep_reward))

        # 每隔20个episode渲染一下看看效果
        if episode % 20 == 0:
            is_render = True
        else:
            is_render = False
    # 训练结束，查看算法效果
    test_episode(env, agent)

2. 模块代码，该部分与Sarsa有区别！！！

def run_episode(env, agent, render=False):
    total_steps = 0  # 记录每个episode走了多少step
    total_reward = 0

    obs = env.reset()  # 重置环境, 重新开一局（即开始新的一个episode）

    #################以下与Sarsa不同######################
    while True:
        
        action = agent.sample(obs)  # 根据算法选择一个动作
        next_obs, reward, done, _ = env.step(action)  # 与环境进行一个交互
        # 训练 Q-learning算法
        agent.learn(obs, action, reward, next_obs, done)
        #################以上与Sarsa不同######################
        
        obs = next_obs  # 存储上一个观察值
        total_reward += reward
        total_steps += 1  # 计算step数
        if render:
            env.render()  #渲染新的一帧图形
        if done:
            break
    return total_reward, total_steps

def test_episode(env, agent):
    total_reward = 0
    obs = env.reset()
    while True:
        action = agent.predict(obs)  # greedy
        next_obs, reward, done, _ = env.step(action)
        total_reward += reward
        obs = next_obs
        time.sleep(0.5)
        env.render()
        if done:
            print('test reward = %.1f' % (total_reward))
            break

Eliza_Her

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
强化学习Q-Learning算法实践

Q-Learning算法与Sarsa算法对比相同点：1. 都属于基于价值（value-based）算法的分类，都不需要神经网络。2. 基本公式相同：不同点：1. Sarsa属于on-policy算法，Q-Learning属于off-policy算法。因此Q-Learning能够做出更大胆的决策。On-policy和off-policy区别在于，学习（learn）的时候是否传进next action（A’），如下图。练习背景寻路游戏，学习到达终点而不掉进..
复制链接

扫一扫

专栏目录