《深入浅出强化学习编程实战》鸳鸯系统（策略迭代）

满目山河空念远￥

于 2021-11-02 21:04:38 发布

阅读量334

点赞数 1

分类专栏：强化学习文章标签： python 机器学习

本文链接：https://blog.csdn.net/weixin_38594096/article/details/121109188

版权

import random
import time
from testyuanyang import YuanYangEnv
class DP_Policy_Iter:
    def __init__(self,yuanyang):
        self.states=yuanyang.states
        self.actions=yuanyang.actions
        self.v=[0.0 for i in range(len(self.states)+1)]         #值函数
        self.pi=dict()                                          #创建空字典
        self.gamma= yuanyang.gamma
        self.yuanyang=yuanyang
        #初始化策略
        for state in self.states:
            flag1=0
            flag2=0
            flag1=yuanyang.collide(yuanyang.state_to_position(state))
            flag2=yuanyang.find(yuanyang.state_to_position(state))
            if flag1==1 or flag2==1:continue
            self.pi[state]=self.actions[int(random.random()*len(self.actions))]
    def policy_evaluate(self):
        #策略评估计算值函数
        for i in range(100):
            delta=0.0
            for state in self.states:
                flag1=0

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

满目山河空念远￥

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《深入浅出强化学习编程实战》鸳鸯系统（策略迭代）

import randomimport timefrom testyuanyang import YuanYangEnvclass DP_Policy_Iter: def __init__(self,yuanyang): self.states=yuanyang.states self.actions=yuanyang.actions self.v=[0.0 for i in range(len(self.states)+1)] .
复制链接

扫一扫