股票操作之强化学习基础（三）（Deep Q Network、Actor-critic、Policy gradients）

最新推荐文章于 2024-03-06 15:10:12 发布

wbbhcb

最新推荐文章于 2024-03-06 15:10:12 发布

阅读量7k

点赞数 1

分类专栏：量化杂文文章标签：算法深度学习机器学习强化学习数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31611005/article/details/104194349

版权

股票操作之强化学习基础（三）（Deep Q Network、Actor-critic、Policy gradients）

接上一篇文章继续介绍一些强化学习基础。

1 DQN（Deep Q Network）

DQN是一种融合了神经网络和Q-learning的方法。那么DQN提出来的动机是什么呢？Q-learning算法的核心是学习Q-table，然而真实世界的状态非常多，这些状态多到计算机已经无法储存了。比如在围棋中，不同的牌面布局就有很多种。因此DQN被提出来，其核心思想就是利用神经网络来近似这个Q-table。

举个例子：假设一个学习好的Q-table如下：
在这里插入图片描述
假设我们用一个神经网络来近似这个Q-table，输入状态（state）和动作（action），就能利用神经网络输出其对应Q-table中的Q值。或者我们输入一个状态，神经网络可以输出所有动作对应的Q值。

但是单纯的用神经网络代替Q-table又是不可行的，其原因主要如下 [2]：

1）DL（Deep learning，深度学习）是监督学习需要学习训练集，强化学习不需要训练集只通过环境进行返回奖励值reward，同时也存在着噪声和延迟的问题，所以存在很多状态state的reward值都是0也就是样本稀疏。

2）DL每个样本之间互相独立，而RL（ReinforcementLearning，强化学习）当前状态的状态值是依赖后面的状态返回值的。

3）当我们使用非线性网络来表示值函数的时候可能出现不稳定的问题。

最低0.47元/天解锁文章

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
股票操作之强化学习基础（三）（Deep Q Network、Actor-critic、Policy gradients）

股票操作之强化学习基础（三）（Deep Q Network、Actor-critic、Policy gradients）接上一篇文章继续介绍一些强化学习基础。1 DQN（Deep Q Network）DQN是一种融合了神经网络和Q-learning的方法。那么DQN提出来的动机是什么呢？Q-learning算法的核心是学习Q-table，然而真实世界的状态非常多，这些状态多到计算机已经无法储...
复制链接

扫一扫

专栏目录

wbbhcb CSDN认证博客专家 CSDN认证企业博客

码龄9年

40: 原创

4万+: 周排名

139万+: 总排名

17万+: 访问

: 等级

2094: 积分

299: 粉丝

83: 获赞

15: 评论

815: 收藏

私信

关注

热门文章

分类专栏

量化杂文 36篇
数据挖掘竞赛 1篇

最新评论

利用机器学习搭建选股策略并进行荐股的完整代码
a1024801337: 请问github上的python是哪个版本
量化建模时常见的数据穿越问题
weixin_39065106: 我理解博主说的用LGBM的特征重要性判断特征是否穿越是一种以结果推断过程的方式，所以不仅仅LGBM，XGB的特征重要性也是同样的道理，用特征KS、IV异常高来判断亦可。
量化建模时常见的数据穿越问题
文艺女程序员: 请问xgb的feature_importance能查验出来特征穿越吗
利用强化学习进行股票操作实战（四）
☞小白: 博主，pycharm运行完之后，测试结果部分的曲线图，是怎么画的啊
利用强化学习进行股票操作实战（三）
☞小白: 博主，pycharm运行完之后，测试结果部分的曲线图，是怎么画的啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。