也许用强化学习来研究股票效果会很好

AlphaFinance

已于 2022-05-22 14:34:41 修改

阅读量1.7k

点赞数

分类专栏：股票量化交易文章标签：强化学习量化交易二分类回归

于 2022-03-10 09:25:31 首次发布

本文链接：https://blog.csdn.net/dragon_T1985/article/details/123392863

版权

股票量化交易专栏收录该内容

26 篇文章 9 订阅 ¥299.90 ¥99.00

订阅专栏

超级会员免费看

强化学习和深度学习对比：训练一个机器人走路，我们没法给机器人准备训练用的数据集，因为我也不清楚什么动作比较好，我只能告诉机器人：“无论你做什么动作，能让你越快达到终点的动作越好”。训练时，机器人（智能体 agent）会自行探索各种动作组合（策略 policy）。强化学习算法需要对动作未来的收益（Q值 Q value）进行预测，然后根据预测结果对高收益的动作进行强化，并验证那些有高预期收益的动作组合。从而让机器人（智能体 agent）在人类的引导下自学（越好的强化学习算法越不用人类操心）。

想详细了解强化学习，需要先入门动态规划 (Dynamic Programming) 以及马尔科夫决策过程 (Markov Decision Processes MDPs)。根据预测结果对高收益的动作进行强化是通过贝尔曼公式(Bellman equation) 做到的。

利用深度学习(Deep Learning) 还可以做深度强化学习(Deep Reinforcement Learning)。

深度强化学习是使用了深度学习神经网络的强化学习。上世纪的强化学习算法不用深度神经网络，如：一种叫Q-learning (QL)的强化学习算法使用一个表格（Q-table）去记录每种状态下做出每个动作的分数（Q值，Quality of an action），通过迭代去更新这个表格，让动作的Q值变准确。后来一种发了《Nature》的方法：Deep Q-learning (Deep Q Network, DQN)用一个深度神经网络取代了表格(Q-table)，它结合了强化学习和深度学习。表格能记录的东西是有限的，替换成神经网络后终于突破了状态(state) 数量的限制。后来又有一种深度强化学习算法叫Dee

了解本专栏

超级会员免费看

AlphaFinance

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
也许用强化学习来研究股票效果会很好

把强化学习和深度学习对比：训练一个机器人走路，我们没法给机器人准备训练用的数据集，因为我也不清楚什么动作比较好，我只能告诉机器人：“无论你做什么动作，能让你越快达到终点的动作越好”。训练时，机器人（智能体 agent）会自行探索各种动作组合（策略 policy）。强化学习算法需要对动作未来的收益（Q值 Q value）进行预测，然后根据预测结果「对高收益的动作进行强化」，并验证那些有高预期收益的动作组合。从而让机器人（智能体 agent）在人类的引导下自学（越好的强化学习算法越不用人类操心）。
复制链接

扫一扫