策略迭代:二维状态网格实现

#参考:https://www.cnblogs.com/devilmaycry812839668/p/10314049.html
#encoding:UTF-8
#!/usr/bin/env python3

import random

#状态
states=[0,1,2,3,4,5]

#动作
actions=["a", "b"]

# 奖励的折扣因子
gama=0.9

""" 状态值  v_value 
v_value={
"1":0,
"2":0
}"""
v_value={}
for state in states:
    v_value[state]=0


# 动作值 ("1", "a"):0
q_value={}

#状态转移
def p_state_reward(state, action):
    # 输入当前状态,及行为
    # return 跳转概率,下一状态, 奖励
    if state==0:
        if action=="a":
            return (0, 0, 0)
        else:
            return (0, 2, 0)
    if state==1:
        if action=="a":
            return (1/2, 0, 1)
        else:
            return (1/2, 2, 0)
    if state==2:
        if action=="a":
            return (1/2, 1, 0)
        else:
            return (1/2, 3, 0)
    if state==3:
        if action
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值