也许用强化学习来研究股票效果会很好

强化学习和深度学习对比:训练一个机器人走路,我们没法给机器人准备训练用的数据集,因为我也不清楚什么动作比较好,我只能告诉机器人:“无论你做什么动作,能让你越快达到终点的动作越好”。训练时,机器人(智能体 agent)会自行探索各种动作组合(策略 policy)。强化学习算法需要对动作未来的收益(Q值 Q value)进行预测,然后根据预测结果对高收益的动作进行强化,并验证那些有高预期收益的动作组合。从而让机器人(智能体 agent)在人类的引导下自学(越好的强化学习算法越不用人类操心)。

想详细了解强化学习,需要先入门动态规划 (Dynamic Programming) 以及马尔科夫决策过程 (Markov Decision Processes MDPs)。根据预测结果对高收益的动作进行强化是通过贝尔曼公式(Bellman equation) 做到的。

利用深度学习(Deep Learning) 还可以做深度强化学习(Deep Reinforcement Learning)。

深度强化学习是使用了深度学习神经网络的强化学习。上世纪的强化学习算法不用深度神经网络,如:一种叫Q-learning (QL)的强化学习算法使用一个表格(Q-table)去记录每种状态下做出每个动作的分数(Q值,Quality of an action),通过迭代去更新这个表格,让动作的Q值变准确。后来一种发了《Nature》 的方法:Deep Q-learning (Deep Q Network, DQN)用一个深度神经网络取代了表格(Q-table),它结合了强化学习和深度学习。表格能记录的东西是有限的,替换成神经网络后终于突破了状态(state) 数量的限制。后来又有一种深度强化学习算法叫Dee

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AlphaFinance

您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值