【RL】迭代法评估4*4方格世界下的随机策略

本文通过Python代码演示了《强化学习》中4x4方格世界的例子,利用动态规划算法迭代评估一个随机策略。状态空间包括16个状态,其中两个为终止状态,每个非终止状态有四个可能的动作,即时奖励为-1(非终止状态)或0(终止状态),衰减系数为1。代码实现包括状态、动作、转移概率、奖励函数和策略更新等功能,最终通过迭代更新状态价值函数。
摘要由CSDN通过智能技术生成

强化学习实践一 迭代法评估44方格世界下的随机策略
本篇用代码演示《强化学习》第三讲中的示例——方格世界,即用动态规划算法通过迭代计算来评估4
4方格世界中的一个随机策略。

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
'''
@File    :   RL_practice1.py
@Time    :   2021/11/11 21:30:11
@Version :   1.0
@Contact :   841121040@qq.com
@License :   (C)Copyright 2017-2018, Liugroup-NLPR-CASIA
@Desc    :   None
'''

# here put the import lib

#强化学习实践一 迭代法评估4*4方格世界下的随机策略
#本篇用代码演示《强化学习》第三讲中的示例——方格世界,即用动态规划算法通过迭代计算来评估4*4方格世界中的一个随机策略。

"""
状态空间 S:[公式]为非终止状态;[公式],[公式]终止状态,图中灰色方格所示两个位置;
行为空间 A:{n, e, s, w} 对于任何非终止状态可以有向北、东、南、西移动四个行为;
转移概率 P:任何试图离开方格世界的动作其位置将不会发生改变,其余条件下将100%地转移到动作指向的位置;
即时奖励 R:任何在非终止状态间的转移得到的即时奖励均为-1,进入终止状态即时奖励为0;
衰减系数 γ:1;

当前策略π:个体采用随机行动策略,在任何一个非终止状态下有均等的几率往任意可能的方向移动,即π(n|•) = π(e|•) = π(s|•) = π(w|•) = 1/4。

问题:评估在这个方格世界里给定的策略。
该问题等同于:求解该方格世界在给定策略下的(状态)价值函数,也就是求解在给定策略下,该方格世界里每一个状态的价值。
"""

states = [i for i in range(16)]  #0-15 #声明状态 
values = [0 for _ in range(16)]  #声明状态价值,并初始化各状态价值为0
#print(values)
actions = ["n", "e", "s", "w"]  #声明行为空间 北 东 南 西
ds_actions = {
   "n":-4,"e":1,"s":4,"w":-1
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Tialyg

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值