七月算法强化学习第四课学习笔记

最新推荐文章于 2024-09-04 14:45:59 发布

大牙老快板

最新推荐文章于 2024-09-04 14:45:59 发布

阅读量328

点赞数

文章标签：七月在线算法强化学习深度学习数学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/linkedin_39447410/article/details/78314240

版权

Deep Q-Network

1.复习Q值函数

SARSA

2.Q-Learning

如果（s,a）状态太多太复杂怎么办？（围棋、Atari游戏，星际争霸）

拟合值函数Q（s，a）

几种值函数逼近（Value Function Approximation）

值函数

Linear Combination of Features
Neural Network
Decision Tree
Nearest Neighbor

以及任何其他的函数都可能用来拟合值函数

Q-Network

Gradient Descent

3.Deep Q-Learning

Experience Replay

Experience Replay优点：训练数据利用率高，随机才养出来的Experience直接相关性小，可降低训练的Variance

DQN玩Atari

Double DQN

Duelling network模型

大牙老快板

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
七月算法强化学习第四课学习笔记

Deep Q-Network1.复习Q值函数SARSA2.Q-Learning 如果（s,a）状态太多太复杂怎么办？（围棋、Atari游戏，星际争霸）拟合值函数Q（s，a）几种值函数逼近（Value Function Approximation）值函数Linear Combination of Features Neura
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。