首先为什么要学习强化学习?之前我一直在研究如何利用机器学习去选股,但选股只是股票操作的第一步。股票买入后往往会有加仓、减仓等操作。之前的选股策略并没有对这些操作进行研究。传统的机器学习方法(SVM、GBDT、LR等)一般适用于分类或回归问题,如果要让传统机器学习模型自动学会加仓、减仓等操作,我个人认为比较难,这其中的建模过程比较复杂。以个人目前的浅薄理解来说,这可能可以建模出来,但其效果不一定好。而强化学习就能很好的胜任股票的加仓、减仓等操作。当然强化学习也可以适用股票选择,在未来的研究中,为了将问题简单化,我们把选股的工作交给传统机器学习模型(这里我们之前用的是树模型LGB模型),个股的操作我们交给强化学习。
然后强化学习是干什么的,有什么作用?一般来说机器学习问题可以分为有监督学习(样本有标签)、无监督学习(样本无标签,如聚类就是无监督学习)以及强化学习。强化学习也是机器学习中的一个重要分支,其本质是解决decision making问题,即自动进行决策。目前很多领域都有强化学习的出色表现,比如在围棋上Alohago战胜了柯洁和李世石,又比如在很多MOBA游戏上(如英雄联盟)AI也战胜了很多职业玩家。
接下来我这里简单描述下强化学习。强化学习主要包含四个元素:agent、environment(环境状态)、action(行动)、reward(奖励), 强化学习的目标就是获得最多的累计奖励。
这里引用一篇博客中的例子 [1]。我们以小孩学习走路来做个形象的例子:小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿。应该迈是左腿