策略迭代：二维状态网格实现

最新推荐文章于 2021-03-05 16:00:06 发布

IF奇迹有颜色

最新推荐文章于 2021-03-05 16:00:06 发布

阅读量309

点赞数

分类专栏：强化学习策略迭代

本文链接：https://blog.csdn.net/qq_41871172/article/details/92725223

版权

#参考：https://www.cnblogs.com/devilmaycry812839668/p/10314049.html
#encoding:UTF-8
#!/usr/bin/env python3

import random

#状态
states=[0,1,2,3,4,5]

#动作
actions=["a", "b"]

# 奖励的折扣因子
gama=0.9

""" 状态值  v_value 
v_value={
"1":0,
"2":0
}"""
v_value={}
for state in states:
    v_value[state]=0


# 动作值 ("1", "a"):0
q_value={}

#状态转移
def p_state_reward(state, action):
    # 输入当前状态，及行为
    # return 跳转概率，下一状态, 奖励
    if state==0:
        if action=="a":
            return (0, 0, 0)
        else:
            return (0, 2, 0)
    if state==1:
        if action=="a":
            return (1/2, 0, 1)
        else:
            return (1/2, 2, 0)
    if state==2:
        if action=="a":
            return (1/2, 1, 0)
        else:
            return (1/2, 3, 0)
    if state==3:
        if action

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

IF奇迹有颜色

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
策略迭代：二维状态网格实现

#参考：https://www.cnblogs.com/devilmaycry812839668/p/10314049.html#encoding:UTF-8#!/usr/bin/env python3import random#状态states=[0,1,2,3,4,5]#动作actions=["a", "b"]# 奖励的折扣因子gama=0.9""" 状态值 v...
复制链接

扫一扫