《一个 Q-learning 算法的简明教程》之Python代码

最新推荐文章于 2024-01-14 03:30:00 发布

VIP文章虾米小飞

最新推荐文章于 2024-01-14 03:30:00 发布

阅读量691

点赞数 5

分类专栏：机器学习

本文链接：https://blog.csdn.net/FengKuangXiaoZuo/article/details/114319119

版权

本文是对A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)中的强化学习教程做的Python代码实现
代码框架参考【莫烦Python】强化学习 Reinforcement Learning

场景简述

一栋房子，共6个房间（最外层也看做一个房间5），目标是快速地从某个房间走出（即走到房间5）
图1：房间结构
抽象为有向图，并设定奖赏（只有通向房间5的转移有奖赏100，其他情况都为0）。
在这里插入图片描述

代码实现

# -*- coding: utf-8 -*-
"""
Created on Wed Mar  3 14:13:13 2021
仿写一个走房间的Q-learning
@author: YI
"""
import networkx as nx
import numpy as np
import pandas as pd
import time

np.random.seed(2)
"""  状态：共6个状态（房间）
    动作：通向哪个房间
"""
N_STATES = 6  ### 共6个房间
ACTIONS = list(range(N_STATES))  ### 可以通向那个房间
EPSILON = 0.9  ## epsilon-greedy parameter
DISCOUNT = 0.8  ## 折扣
LEARNING_RATE = 1  ## 学习率
MAX_EPISODES = 1000

def define_environment():
    """定义一个环境：确定哪些房间相连，以及奖赏"""
    G = nx.DiGraph() # 创建有向图
    G.add_edge(0,4,weight=0)
    G.add_edge(1,3,weight=0)
    G.add_edge(1,5,weight=100)
    G.add_edge(2,3,weight=0)
    G.

最低0.47元/天解锁文章

虾米小飞

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
3
评论
《一个 Q-learning 算法的简明教程》之Python代码

本文是对A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)中的强化学习教程做的Python代码实现代码框架参考【莫烦Python】强化学习 Reinforcement Learning场景简述一栋房子，共5个房间（最外层也看做一个房间5），目标是快速地从某个房间走出（即走到房间5）抽象为有向图，并关联奖赏（只有通向房间5的转移有奖赏100，其他情况都为0）。代码实现# -*- coding: utf-8 -*-"""Creat.
复制链接

扫一扫