强化学习资料

Cater Chen

于 2021-05-31 14:22:39 发布

阅读量55

点赞数

分类专栏：强化学习

原文链接：https://blog.csdn.net/j754379117/article/details/83037799

版权

强化学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

强化学习资料

前情提要

强化学习入门总结
马尔可夫决策
条件随机场（CRF）和隐马尔科夫模型（HMM）最大区别在哪里？CRF的全局最优体现在哪里？
ϵ−greedy algorithm：每次选择执行的行为是估计值最大的行为，小概率的情况下，随机选择其他的行为。
行为策略（Behavior Policy）和目标策略（Target Policy）：

算法

Q-learning
Sarsa
DQN
Policy Gradients
Actor-critic
MDP（马尔科夫决策）

核心问题

如何设计算法：

Step 1：将实际问题建模成马尔可夫决策过程，抽象出五元组，其中reward与实际目标相关联

Step 2：根据动作是否连续选择对应的算法

动作离散：DQN

动作连续：Policy Gradients，Actor-Critic，DDPG

Step 3：根据算法写代码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。