（RL强化学习）强化学习基础知识

最新推荐文章于 2023-09-03 08:28:41 发布

Hoyyyaard

最新推荐文章于 2023-09-03 08:28:41 发布

阅读量3.8k

点赞数

分类专栏：强化学习文章标签：深度学习计算机视觉机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KNIGHT_HOY/article/details/123858629

版权

强化学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

Basic Components
Back propagation
Inverse RL
Policy Gradient

Basic Components

以Video Game为例
- Actor：遥杆
- Env：游戏界面
- Reward Function：杀一个怪得20分

在这里插入图片描述

Actor

一个神经网络
输入游戏画面输出action

Critic

给定一个actor的一个observation
Critic给出从现在到结束的reward的概率
Critic衡量Actor的好坏但不决定action
example：打怪游戏：当当前的observation里面还很多怪那给出的reward 概率就会高

当当前的observation剩一点点怪那么reward就低因为到游戏结束也不会获得很高的分数

网络训练
- MC
  - 给定一个state 得到这个state开始到游戏结束的reward G
  - 然后将这个state输入到Vπ 得到的值跟G越接近越好
- TD
  - 给定相邻的两个state分别送进去网络
  - 得到的差值越接近这个state后actor的得到的reward越好
Q-learning
- Q function
  - 给定state 和 action
  - 给出这个state采取这个action的reward
  - 只适用于离散的action

在这里插入图片描述

迭代过程
- 给定一个actor π
- 给出 state action 算出Q-value
- 通过TD/MC更新Q function
- 得到一个更好的actor π1
- π1替换π

Actor + Critic

仅仅actor会根据当前observation得到一个reward 但这样子做随机性会很大
故提出AC Critic指导Actor的行动

A2C Advantage Actor-Critic

在这里插入图片描述

A3C Asynchtonous Advantage Actor-Critic

有一个global actor 和 critic
建立一些分身进行跟环境互动平行运算
反馈参数到global

在这里插入图片描述

Back propagation

为了maximize R(涛) 需要反向传播到Reward，Env ，Actor
但是Reward,Env并不是网络
所以需要用Policy Gradient去实现反向传播

Inverse RL

很多时候并不知道reward function
需要一个跟环境互动过的专家Expert反推 reward function
使用reward function 找到最好的Actor

在这里插入图片描述

具体流程

Policy Gradient

Policy

输入一个代表observation的矩阵或者向量
输出端每一个action对应输出层的一个神经元

Example

Actor 得到 S1 放入 Policy
得到概率最高的action a1
采取action后获得这个action的reward r1

在这里插入图片描述

一直循环直到游戏结束整个过程称为一个episode 所有reward的总和称为total reward
Actor的目的就是让total reward最大化
（s1,a1,s2,a2…）的集合称为trajectory
可以计算这个trajectory的概率
Expected Reward
- sample 一个 trajectory 乘上这个trajectory的total reward
- sample所有的trajectory 并以total reward为权值加权起来就是 Expected Reward
Gradient
目标是maximinze Expected Reward
gradient计算公式
具体流程

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
（RL强化学习）强化学习基础知识

文章目录Basic ComponentsActorCritic网络训练Q-learningActor + CriticA2C Advantage Actor-CriticA3C Asynchtonous Advantage Actor-CriticBack propagationInverse RLPolicy GradientPolicyExampleGradientBasic Components以Video Game为例Actor：遥杆Env：游戏界面Reward Funct
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。