#参考:https://www.cnblogs.com/devilmaycry812839668/p/10314049.html
#encoding:UTF-8
#!/usr/bin/env python3
import random
#状态
states=[0,1,2,3,4,5]
#动作
actions=["a", "b"]
# 奖励的折扣因子
gama=0.9
""" 状态值 v_value
v_value={
"1":0,
"2":0
}"""
v_value={}
for state in states:
v_value[state]=0
# 动作值 ("1", "a"):0
q_value={}
#状态转移
def p_state_reward(state, action):
# 输入当前状态,及行为
# return 跳转概率,下一状态, 奖励
if state==0:
if action=="a":
return (0, 0, 0)
else:
return (0, 2, 0)
if state==1:
if action=="a":
return (1/2, 0, 1)
else:
return (1/2, 2, 0)
if state==2:
if action=="a":
return (1/2, 1, 0)
else:
return (1/2, 3, 0)
if state==3:
if action
策略迭代:二维状态网格实现
最新推荐文章于 2021-03-05 16:00:06 发布