深度强化学习概述

最新推荐文章于 2024-08-02 23:40:51 发布

Dijkstra__

最新推荐文章于 2024-08-02 23:40:51 发布

阅读量950

点赞数

分类专栏： deep learning 文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32126633/article/details/89085960

版权

深度强化学习结合了深度学习和强化学习，突破传统强化学习的局限。它包括model-based与model-free，基于价值和基于策略的分类。Q-learning和Sarsa是传统强化学习方法，而DQN引入神经网络处理状态动作对。DQN的三大改进包括double DQN、Prioritized Experience Replay和dueling DQN。进一步的发展如DDPG采用actor-critic方法，提高了学习效率。A3C和DPPO是其他重要的算法，分别通过并行训练和优化Policy Gradient的学习率问题来加速收敛。

摘要由CSDN通过智能技术生成

深度强化学习

概述

深度强化学包含深度学习和强化学习两个概念,简单来说就是将是深度神经网络与传统强化学习结合起来,突破了传统强化学习的瓶颈

深度强化学习是一种无监督学习

分类

model_base VS model_free
- model_base:事先制定策略
- model_free: 事先不制定策略,让agent从环境的反馈中学习
基于价值 VS 基于策略
- 基于价值:通过计算奖励选取动作
- 对策略抽样训练出一个概率分布，并增强回报值高的动作被选中的概率
回合更新 VS 单步更新
- 回合更新: 每个回合结束对策略进行更新
- 单步更新:每走一步更新一下策略(更有效率)
在线学习 VS 离线学习
- 在线学习:根据环境的反馈实时学习
- 离线学习:将进行过的状态存下来,之后的一段时间后回想学习

发展

传统强化学习

Q-learning

一个回合有很多个状态,在每个状态可以选择若干动作,每个动作执行之后会达到不同的状态,同时在执行玩这个动作后环境会反馈相应的奖励.

Q_learning 使用一个矩阵存储每一个状态转换过程的信息,选取这个动作后得到正反馈,那么就会增加选取这个动作的概率,相反减少概率,之后每次根据表中对应状态选择概率最大的动作

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。