深度学习10--强化学习

在下小天n

于 2024-08-17 14:10:11 发布

阅读量79

点赞数 1

分类专栏：深度学习文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63860007/article/details/141219680

版权

深度学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

强化学习(增强学习、再励学习、评价学习简称RL)是近年来机器学习领域最热门的方向之一，是实现通用人工智能的重要方法之一。本章将通俗易懂地讲一下强化学习中的两个重要的模型DQN 和DDPG。

马尔可夫决策过程(Markov Decison Process,MDP)包括两个对象：Agent 和环境。包含4个要素：环境状态、智能体动作、智能体策略和奖励。Agent 从环境中获取“状态”,然后根据“策略”做出“动作”,改变了“环境”,得到了“奖励”。而希望得到的，就是一个好的“策略”,在RL 中，这个“策略”就是一个神经网络，输入是环境状态，输出是动作。

分清楚回报和奖赏的区别：因为强化学习的目的是最大化长期未来奖励，寻找最大的G 。这容易理解，如果只看重奖赏R, 用一个成语--鼠目寸光；如果看重的是长期的回报，那就是深谋远虑。

价值函数主要有两种：

(1)状态价值函数：意思就是一个状态的价值是基于一定的动作选择策略的未来回报的期望。先理解含义，不考虑怎么计算这个很抽象的公式。

(2)动作价值函数：就是当前状态s, 情况下采取了a, 动作的未来回报的期望。

DQN

DQN 是 Deep Q-learning Network的缩写，一般人们称为深度Q 学习。训练集中的数据都是统一的格式。DDQN 就是 Double DQN。策略梯度(Policy Gradient,PG)就是基于策略的强化学习方法。DQN 是解决离散动作空间的算法。

为什么说PG 是可以解决连续动作空间的呢?因为PG中避免了对最优动作的选取，而是输出连续动作的概率分布，然后进行采样。这意味着，不管是多么糟糕的行为，在PG中都有可能执行，只是执行的概率非常的小。

DQN 是一个典型的确定性策略，在策略不变的情况下，只会选择价值最大的那一个动作。相同的环境重复100次决策，也只会选择100次同样的动作；而PG 是随机性策略，因为是从概率分布中采样，同样的环境重复100次决策，可能会有不同的决策产生。相应地，AC 算法也是随机性策略。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习10--强化学习

强化学习(增强学习、再励学习、评价学习简称RL)是近年来机器学习领域最热门的方向之一，是。分清楚回报和奖赏的区别：因为强化学习的目的是最大化长期未来奖励，寻。略，在策略不变的情况下，只会选择价值最大的那一个动作。动作选择策略的未来回报的期望。中，这个“策略”就是一个神经网络，输入是环境状态，输出是动作。境重复100次决策，可能会有不同的决策产生。如果看重的是长期的回报，那就是深谋远虑。训练集中的数据都是统一的格式。中都有可能执行，只是执行的概率非常的小。性策略，因为是从概率分布中采样，同样的环。
复制链接

扫一扫

专栏目录

在下小天n CSDN认证博客专家 CSDN认证企业博客

码龄3年

70: 原创

7942: 周排名

2万+: 总排名

4万+: 访问

: 等级

1265: 积分

472: 粉丝

556: 获赞

14: 评论

458: 收藏

私信

关注

热门文章

分类专栏

深度学习 10篇
机器学习 19篇
python基础 4篇
pyqt 1篇
爬虫 6篇
bug 1篇
数据运营 6篇
excel 1篇
tableau 3篇
powerbi 4篇
sql 5篇
PTA

最新评论

深度学习6--深度神经网络
征途黯然.: This article provides a wealth of information about 深度学习6深度神经网络 and is quite profound.
python机器学习算法--贝叶斯算法
R࿆ebirth Fire: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文
机器学习4----随机森林
白话机器学习: 博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文
机器学习3----决策树
白话机器学习: 文章内容通俗易懂，适合不同层次的读者。无论是初学者还是资深从业者，都能从中获得不同层次的收获
powerbi学习—共享单车项目
CSDN-Ada助手: 恭喜您在powerbi学习领域取得了进展，共享单车项目的博客内容也相当引人入胜！希望您能继续坚持创作，不断分享您的学习成果和经验。或许下一步可以考虑深入探讨一些实际案例，或者分享一些在项目中遇到的挑战和解决方法，这样能让读者更加受益。期待您更多精彩的创作！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。