股票操作之强化学习基础(一)

首先为什么要学习强化学习?之前我一直在研究如何利用机器学习去选股,但选股只是股票操作的第一步。股票买入后往往会有加仓、减仓等操作。之前的选股策略并没有对这些操作进行研究。传统的机器学习方法(SVM、GBDT、LR等)一般适用于分类或回归问题,如果要让传统机器学习模型自动学会加仓、减仓等操作,我个人认为比较难,这其中的建模过程比较复杂。以个人目前的浅薄理解来说,这可能可以建模出来,但其效果不一定好。而强化学习就能很好的胜任股票的加仓、减仓等操作。当然强化学习也可以适用股票选择,在未来的研究中,为了将问题简单化,我们把选股的工作交给传统机器学习模型(这里我们之前用的是树模型LGB模型),个股的操作我们交给强化学习。

然后强化学习是干什么的,有什么作用?一般来说机器学习问题可以分为有监督学习(样本有标签)、无监督学习(样本无标签,如聚类就是无监督学习)以及强化学习。强化学习也是机器学习中的一个重要分支,其本质是解决decision making问题,即自动进行决策。目前很多领域都有强化学习的出色表现,比如在围棋上Alohago战胜了柯洁和李世石,又比如在很多MOBA游戏上(如英雄联盟)AI也战胜了很多职业玩家。

接下来我这里简单描述下强化学习。强化学习主要包含四个元素:agent、environment(环境状态)、action(行动)、reward(奖励), 强化学习的目标就是获得最多的累计奖励。

这里引用一篇博客中的例子 [1]。我们以小孩学习走路来做个形象的例子:小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿。应该迈是左腿

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值