强化学习基础
weixin_42522567
这个作者很懒,什么都没留下…
展开
-
DDPG简单解释
DDPG是DQN连续动作的扩展版本。DDPG全称Deep Deterministic Policy GradientDeep:使用到了深度神经网络Deterministic: DDPG输出确定性策略,输出Q值最大动作,可以用于连续动作的一个环境Policy Gradient :使用策略网络进行更新 DDPG需要一边学习Q网络。一边学习策略网络。图示结构称为Actor-Critic结构...原创 2022-07-07 22:56:02 · 2139 阅读 · 0 评论 -
value-based 与 policy-based区别
value-based 代表算法:sarsa、Q-learning、DQN1、直接输出Q值,根据Q值选择动作2、当把Q网络训练到一定程度后,Q网络收敛,输入相同状态,得到相同动作。属于确定性策略policy-based 算法1、输出每个动作的概率值,然后随机选择动作2、即便把网络训练到收敛,相同状态,也可能得到不同动作,属于随机策略...原创 2022-07-02 21:00:42 · 567 阅读 · 0 评论 -
强化学习&推荐系统入门课程(持续更新)
王树森-深度强化学习课程资料:GitHub - wangshusen/DRL: Deep Reinforcement Learning课程链接:【王树森】深度强化学习(DRL)_哔哩哔哩_bilibili李宏毅-强化学习课程PPT&笔记:Hung-yi LeeEasyRL课程链接:【李宏毅】2020 最新课程 (完整版) 强化学习 - 71.作業十五 ML Lecture 23-1 - Deep Re_哔哩哔哩_bilibili莫凡-强化学习课程代码:https://原创 2022-05-23 14:36:10 · 597 阅读 · 0 评论