强化学习---策略迭代算法

悬崖漫步

创建游戏环境

#2 策略迭代
def get_state(row,col):
    if row != 3:
        return 'ground'
    if row == 3 and col ==0:
        return 'ground'
    if row == 3 and col == 11:
        return 'terminal'
    return 'trap'
get_state(0,0)#调用函数 get_state(0,0),传入参数为 0 和 0,根据条件判断,由于 row 不等于 3,所以返回状态为 ‘ground’

在这里插入图片描述
从低分值格子走到高分值 求出每一个格子里的分数

初始化values和pi

import numpy as np
#初始化每个格子的价值
values = np.zeros([4,12])
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值