Actor Critic算法

最新推荐文章于 2024-07-26 18:49:21 发布

段智华

最新推荐文章于 2024-07-26 18:49:21 发布

阅读量1.6k

点赞数

分类专栏： AI & Big Data案例实战课程

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行

本文链接：https://blog.csdn.net/duan_zhihua/article/details/103097054

版权

AI & Big Data案例实战课程专栏收录该内容

167 篇文章 337 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Actor Critic算法结合Policy Gradient的演员网络与Function Approximation的评判家网络，演员执行动作，评判家对其打分，通过评分反馈优化演员的行为策略。应用于钟摆游戏的连续动作和小车立杆游戏的离散动作场景。

摘要由CSDN通过智能技术生成

Actor Critic(直译为演员评判家算法，易理解)：

结合两个网络：演员网络Policy Gradient (Actor)+ 评判家网络Function Approximation (Critic)，演员Actor 基于概率表演动作行为, 评判家Critic 基于演员Actor 的行为进行评论打分, 演员Actor 根据评判家Critic 的评分改进表演行为的概率。

钟摆游戏的动作是一个连续值：

演员网络：

评判家网络：

import tensorflow as tf
import numpy as np
import gym

np.random.seed(2)
tf.set_random_seed(2)

class Actor(object):
    def __init__(self,sess,n_features,action_bound,lr=0.0001):