2021-02-28

最新推荐文章于 2021-10-10 18:11:30 发布

THU_jie

最新推荐文章于 2021-10-10 18:11:30 发布

阅读量117

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_37445049/article/details/114211635

版权

bellman最优方程

def evaluate_bellman(env, policy, gamma=1.):
    a, b = np.eye(env.nS), np.zeros((env.nS))
    i=0
    for state in range(env.nS - 1):
        for action in range(env.nA):

            pi = policy[state][action]
            for p, next_state, reward, done in env.P[state][action]:
                a[state, next_state] -= (pi * gamma * p)
                b[state] += (pi * reward * p)
                print(i)
    print('a=',a)
    print('b=',b)
    v = np.linalg.solve(a, b)
    q = np.zeros((env.nS, env.nA))
    for state in range(env.nS - 1):
        for action in range(env.nA):
            for p, next_state, reward, done in env.P[state][action]:
                q[state][action] += ((reward + gamma * v[next_state]) * p)
    return v, q

policy = np.random.uniform(size=(env.nS, env.nA))
policy = policy / np.sum(policy, axis=1)[:, np.newaxis]
print(policy.shape)
state_values, action_values = evaluate_bellman(env, policy)

env.P

#第一个是状态
#每个括号里第一个是动作
#数组中第一个是概率，第二个是到达的状态，第三个是奖励，第四个是否结束

bellman实现矩阵见pad

最优方程没搞明白

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

THU_jie

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-02-28

bellman最优方程def evaluate_bellman(env, policy, gamma=1.): a, b = np.eye(env.nS), np.zeros((env.nS)) i=0 for state in range(env.nS - 1): for action in range(env.nA): pi = policy[state][action] for p, next_state,
复制链接

扫一扫