【零基础强化学习】100行代码教你训练——基于Q-learning的CliffWalking爬悬崖游戏

最新推荐文章于 2024-07-25 14:35:42 发布

北郭zz

最新推荐文章于 2024-07-25 14:35:42 发布

阅读量3.4k

点赞数 6

分类专栏：强化学习文章标签： pytorch 深度学习强化学习人工智能机器学习

本文链接：https://blog.csdn.net/gzhzzaa/article/details/122480826

版权

强化学习专栏收录该内容

19 篇文章 13 订阅

订阅专栏

基于Q-learning的CliffWalking爬悬崖游戏🤔

写在前面
show me code, no bb
结果展示
SARSA与Q-learning
写在最后
- 谢谢点赞交流！(❁´◡`❁)

更多代码: gitee主页：https://gitee.com/GZHzzz
博客主页： CSDN：https://blog.csdn.net/gzhzzaa

写在前面

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己强化学习的学习历程，希望大家互相交流一起进步！😁在我的gitee收集了强化学习经典论文：强化学习经典论文，搭建了基于pytorch的典型智能体模型，大家一起多篇多交流，互相学习啊！😊

show me code, no bb

import gym
import time
import numpy as np 

class QLearningAgent(object):
    def __init__(self, obs_n, act_n, learning_rate=0.01, gamma=0.9, e_greed=0.1):
        self.act_n = act_n      # 动作维度，有几个动作可选
        self.lr = learning_rate # 学习率
        self.gamma = gamma      # reward的衰减率
        self.epsilon = e_greed  # 按一定概率随机选动作
        self.Q = np.zeros((obs_n, act_n))

    # 根据输入观察值，采样输出的动作值，带探索
    def sample(self, obs):
        if np.random.uniform(0, 1) < (1.0 - self.epsilon): #根据table的Q值选动作
            action = self.predict(obs)
        else:
            action = np.random.choice(self.act_n) #有一定概率随机探索选取一个动作
        return action

    # 根据输入观察值，预测输出的动作值
    def predict(self, obs):
        Q_list = self.Q[obs, :]
        maxQ = np.max(Q_list)
        action_list = np.where(Q_list == maxQ)[0]  # maxQ可能对应多个action
        action = np.random.choice(action_list)
        return action

    # 学习方法，也就是更新Q-table的方法
    def learn(self, obs, action, reward, next_obs, done):
        """ off-policy
            obs: 交互前的obs, s_t
            action: 本次交互选择的action, a_t
            reward: 本次动作获得的奖励r
            next_obs: 本次交互后的obs, s_t+1
            done: episode是否结束
        """
        predict_Q = self.Q[obs, action]
        if done:
            target_Q = reward # 没有下一个状态了
        else:
            target_Q = reward + self.gamma * np.max(self.Q[next_obs, :]) # Q-learning
        self.Q[obs, action] += self.lr * (target_Q - predict_Q) # 修正q

    # 把 Q表格 的数据保存到文件中
    def save(self):
        npy_file = './q_table.npy'
        np.save(npy_file, self.Q)
        print(npy_file + ' saved.')

    # 从文件中读取数据到 Q表格
    def restore(self, npy_file='./q_table.npy'):
        self.Q = np.load(npy_file)
        print(npy_file + ' loaded.')

# train.py

def run_episode(env, agent, render=False):
    total_steps = 0 # 记录每个episode走了多少step
    total_reward = 0

    obs = env.reset() # 重置环境, 重新开一局（即开始新的一个episode）

    while True:
        action = agent.sample(obs) # 根据算法选择一个动作
        next_obs, reward, done, _ = env.step(action) # 与环境进行一个交互
        # 训练 Q-learning算法
        agent.learn(obs, action, reward, next_obs, done)

        obs = next_obs  # 存储上一个观察值
        total_reward += reward
        total_steps += 1 # 计算step数
        if render:
            env.render() #渲染新的一帧图形
        if done:
            break
    return total_reward, total_steps

def test_episode(env, agent):
    total_reward = 0
    obs = env.reset()
    while True:
        action = agent.predict(obs) # greedy
        next_obs, reward, done, _ = env.step(action)
        total_reward += reward
        obs = next_obs
        time.sleep(0.5)
        env.render()
        if done:
            break
    return total_reward

# 使用gym创建悬崖环境
env = gym.make("CliffWalking-v0")  # 0 up, 1 right, 2 down, 3 left

# 创建一个agent实例，输入超参数
agent = QLearningAgent(
    obs_n=env.observation_space.n,
    act_n=env.action_space.n,
    learning_rate=0.1,
    gamma=0.9,
    e_greed=0.1)

# 训练500个episode，打印每个episode的分数
for episode in range(500):
    ep_reward, ep_steps = run_episode(env, agent, False)
    print('Episode %s: steps = %s , reward = %.1f' % (episode, ep_steps, ep_reward))

# 全部训练结束，查看算法效果
test_reward = test_episode(env, agent)
print('test reward = %.1f' % (test_reward))

代码全部亲自跑过，你懂的！😝

结果展示

S是起点，C是障碍，G是目标
agent从S开始走，目标是找到到G的最短路径
每走一步的reward可以建模成-1，最终目标是让累计奖励最大，也就是路径最短

在这里插入图片描述

代表智能体一步一步向前走！😎
可以看到智能体贴着障碍物走，显得很胆大！

SARSA与Q-learning

在这里插入图片描述

sarsa下一步的Q对应的action是经过贪婪-探索的实际与环境交互的动作（属于on-policy），加了探索的动作会对环境中reward比较低的状态很敏感，所以实验结果很胆小！
q-learning下一步的Q对应的action是直接选取最大值，不是实际与环境交互的动作（属于off-policy），只选最大值的总动作意味着只关心高奖励的状态，低奖励影响不大，所以实验结果贴着障碍物走，很大胆！

SARSA的对比试验

写在最后

十年磨剑，与君共勉！
更多代码：gitee主页：https://gitee.com/GZHzzz
博客主页：CSDN：https://blog.csdn.net/gzhzzaa

Fighting!😎

基于pytorch的经典模型：基于pytorch的典型智能体模型
强化学习经典论文：强化学习经典论文
在这里插入图片描述

while True:
	Go life

在这里插入图片描述

谢谢点赞交流！(❁´◡`❁)

北郭zz

关注

6
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
2
评论
【零基础强化学习】100行代码教你训练——基于Q-learning的CliffWalking爬悬崖游戏

【零基础强化学习】100行代码教你训练——基于Q-learning的CliffWalking爬悬崖游戏，代码亲自跑通，一起交流学习呀q-learning下一步的Q对应的action是直接选取最大值，不是实际与环境交互的动作（==属于off-policy==），只选最大值的总动作意味着只关心高奖励的状态，低奖励影响不大，所以实验结果贴着障碍物走，**很大胆**！
复制链接

扫一扫