强化学习初步总结

最新推荐文章于 2022-08-30 21:42:40 发布

hxxxx_heeee

最新推荐文章于 2022-08-30 21:42:40 发布

阅读量729

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hxxxx_heeee/article/details/83304187

版权

强化学习基础

1. 定义：

智能体（agent）
环境(environment)
状态s
动作a
策略 π(a|s)，确定性策略是从状态空间到动作空间的映射函数 π : S → A。随机性策略
表示在给定环境状态时,智能体选择某个动作的概率分布。
状态转移概率 p(s′ |s, a)
即时奖励 r(s, a, s′ )

2. 马尔可夫决策过程

马尔可夫过程 (Markov Process)是具有马尔可夫性的随机变量序列，其下一个时刻的状态只取决于当前的状态。

马尔可夫决策过程(Markov Decision Process,MDP)在马尔可夫过程中加入一个额外的变量:动作 a,即下一个时刻的状态和当前时刻的状态以及动作相关,

3.强化学习的目标函数

总回报：有终止状态，无终止状态

目标函数：最大化期望回报

4. 值函数

状态值函数

状态动作值函数：指初始状态为 s 并进行动作 a,然后执行策略 π 得到的期望总回报

贝尔曼方程：表示当前值函数可由下一值函数来计算

5. 深度强化学习

用深度学习来解决策略和值函数的建模问题

基于值函数的学习方法

策略有限是可对所有策略评估，选出最优策略，现实很难满足

1. 动态规划算法（model-based）

策略迭代

值迭代

2. model-free

2.1 蒙特卡罗

同策略、异策略，西瓜书p384

2.2 时序差分（TD）

Q学习

SARSA

2.3 深度Q网络

基于策略的学习方法

1. REINFORCE算法

2. 带基准线的REINFORCE算法

Actor-Critic算法

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

hxxxx_heeee CSDN认证博客专家 CSDN认证企业博客

码龄8年

1: 原创

104万+: 周排名

195万+: 总排名

913: 访问

: 等级

50: 积分

0: 粉丝

1: 获赞

0: 评论

1: 收藏

私信

关注

热门文章

强化学习初步总结 729

分类专栏

备忘

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。