悬崖漫步
创建游戏环境
#2 策略迭代
def get_state(row,col):
if row != 3:
return 'ground'
if row == 3 and col ==0:
return 'ground'
if row == 3 and col == 11:
return 'terminal'
return 'trap'
get_state(0,0)#调用函数 get_state(0,0),传入参数为 0 和 0,根据条件判断,由于 row 不等于 3,所以返回状态为 ‘ground’
从低分值格子走到高分值 求出每一个格子里的分数
初始化values和pi
import numpy as np
#初始化每个格子的价值
values = np.zeros([4,12])