【论文 KDD 2019】AlphaStock: A Buying-Winners-and-Selling-Losers Investment Strategy using...

AlphaStock是一种结合可解释性深度强化注意力网络的股票投资策略,通过LSTM-HA和CAAN网络捕捉股票间关系及历史状态。模型优化目标是最大化夏普比率,同时提供投资策略解释。在美国和中国股市的实验中表现出有效性和鲁棒性。
摘要由CSDN通过智能技术生成

论文题目:AlphaStock: A Buying-Winners-and-Selling-Losers Investment Strategy using Interpretable Deep Reinforcement Attention Networks
论文链接:https://dl.acm.org/doi/abs/10.1145/3292500.3330647
会议: In The 25th ACM SIGKDD Conference on Knowledge Discovery Data Mining (KDD ’19), August 4–8, 2019, Anchorage, AK, USA. ACM, NY, NY, USA, 9 pages. (CCF A)



摘要

本文中,我们提出了AlphaStock,一种基于强化学习的投资策略,通过可解释性的深度attention网络进行增强。
我们的主要贡献如下:

  1. 我们将深度attention网络与基于夏普比率的强化学习进行结合,以平衡收益和风险;
  2. 我们对资产之间的相互关系进行建模,以避免选择的偏差,并采用跨资产的attention机制;
  3. 这项工作是最早使用深度强化学习,并提供解释性的投资策略的工作之一;

我们在美国和中国的长期市场中进行了实验,证明我们方法在不同市场状态下的有效性和鲁棒性。
该方法倾向于选择长期增长的、波动低、内在价值高、近期被低估的股票。

1. 介绍

将深度学习应用于金融市场,仍然面临几个挑战:

  1. 平衡回报和风险:大多数监督式的深度学习模型专注于没有风险的价格预测,有些基于RL的策略考虑了风险,但如何将最先进的深度学习方法应用于风险回报平衡的RL框架,还没有得到很好的研究;
  2. 对资产之间的关系进行建模:市场上的许多金融工具可用于从资产之间的相互关系中获取考虑了风险因素的收益,例如对冲、套利、和BWSL策略,然而现有的基于DL/RL的投资策略很少关注这些;
  3. 解读投资策略:如何从DL的策略中提取可解释的规则;

本文中,我们提出了alphastock,一种使用深度attention网络的基于强化学习的策略,以克服以上困难。
本质上是,股票资产的买入赢家和卖出输家策略(BWSL),由三个部分构成:

  1. LSTM with History state Attention (LSTM-HA) network,用于从多个时间序列中获取资产的表示;
  2. 跨资产的attention网络(CAAN),对资产之间的相互关系、资产价格的上涨进行建模;
  3. 投资组合生成器,根据attention网络输出的赢家分数,给出每个资产的投资比例;

我们使用RL来优化模型,以平衡回报和风险,最大化夏普比率。
为了获得模型的可解释性,我们提出了一种敏感性分析法,来揭示我们的模型如何根据资产的多个特征进行资产投资。
在这里插入图片描述

2. BWSL策略

本文中,采用BWSL策略进行股票交易,买入价格上涨率高的资产(赢家,做多)并卖出价格下降率高的资产(输家,做空)。
我们将该策略作为零投资的投资组合来执行:买入赢家的多头组合,卖出输家的空头投资组合。
该策略能获得利润,必须确保投资组合b+(做多)中的股票比b-(做空)中的股票具有更高的平均价格上涨率。也就是说,即使市场上所有股票都下跌,只要能保证b+中的股票价格下跌慢于b-中的股票,则仍然获得利润。相反,即使所有股票都上涨,如果b-中的股票上涨快于b+中的股票,则仍然赔钱。
所以,股票之间的绝对价格的涨跌不是主要关注点,相对价格则更为重要。
因此,我们必须设计一种机制来描述模型中股票价格的相互关系。

3. AlphaStock模型

模型包含三个部分:

  1. LSTM with History state Attention network (LSTM-HA),对每只股票 i,使用LSTM-HA 模型从历史状态X(i)中提取股票表示r(i);
  2. 跨资产的注意力网络(CAAN),用于描述股票之间的相互关系,输入所有股票的表示r(i),并估计每只股票的赢家分数s(i)。s(i)表示股票i属于赢家的程度,打个分数;
  3. 投资组合生成器,根据所有股票的分数s(i),计算b+和b-的投资比例。

我们使用强化学习,将三个部分作为一个整体进行端到端的优化,目标函数是最大化连续投资的夏普比率

3.1 原始股票特征

模型中使用的股票特征包含两部分
一部分是交易特征,描述股票的交易信息:

  • 价格上涨率(PR):股票最后持有期间的价格上涨率,定义为 p ( i , t ) / p ( i , t − 1 ) p(i,t)/p(i, t-1) p(i,t)/p(i,t1)
  • 细粒度的波动率(VOL):一个持有期可以进一步划分为多个子持有期。实验中我们设置了一个月作为持有期,因此子持有期可以是一个交易日。VOL定义为从 t-1 到 t 的所有子持有期价格的标准差;
  • 交易量(TV):从 t - 1到 t 的股票交易总量;

另一部分是公司特征,描述公司的财务状况:

  • 市值(MC):定义为价格p(i,t)与股票的流通股的乘积;
  • 市盈率(PE):公司市值与年收益的比率;
  • book-to-market ratio(BM):公司账面市值与市场价值的比率;
  • 股息(Div):公司在 t - 1持有期的收益对股东的奖励;

最后,将这些特征的值进行标准化。

3.2 股票的表示

股票的表现与其历史状态密切相关。在AlphaStock模型中,我们提出了历史状态注意力的LSTM(LSTM-HA)模型,从股票的历史特征中学习股票的表示。

  • 顺序表示:使用向量 x t x_t xt 表示股票在时间 t 的历史状态,由3.1中给出的股票特征组成。我们将时间 t 的最后 k 个历史持有期命名为 t 的回顾窗口,即从时间 t - k 到时间 t 的时间段。

  • 回顾窗口中股票的历史状态表示为: X = [ x 1 , x 2 , . . . x k ] X=[x_1, x_2, ... x_k] X=[x1,x2,...xk] ,使用LSTM将X递归编码为向量:
    在这里插入图片描述

  • 历史状态的注意力: h K h_K hK 可以充分利用X中元素的顺序相关性,但X中全局和长范围的相关性没有被有效建模。因此,我们采用历史状态注意力,使用所有中间的隐藏状态 h k h_k hk 来增强 h K h_K hK。具体来说,按照标准的注意力,历史状态注意力的增强表示,记为r,计算方式为:
    在这里插入图片描述
    对于时间 t 的第 i 个股票,历史状态注意力的增强表示记为r(i,t),包含从时间 t - K + 1到时间 t 股票 i 历史状态的顺序和全局相关性。
    我们的模型中,所有股票的表示向量均由同一个LSTM-HA网络提取,得到的表示向量对于所有股票来说(而不是特定股票)是相对稳定的、通用的。

  • 评价:LSTM-HA的主要优点是,可以从股票的历史状态中学习顺序相关性和全局相关性。现有研究中,仅使用RNN提取历史状态中顺序的相关性,或直接将历史状态作为MLP的输入来学习全局相关性,与这些方法相比,我们的模型更加全面。

3.3 赢家和输家的选择

在传统的基于强化学习的策略中,将股票的表示用softmax归一化后生成的投资组合,这种方法的缺点是没有充分利用股票之间的相互关系。所以,我们提出了跨资产的注意力网络(CAAN)来描述股票之间的相互关系。

  • 基本的CAAN模型:采用self-attention机制,对股票之间的相互关系进行建模。给定股票的表示r(i),计算股票 i 的查询向量q(i)、关键向量k(i)、值向量v(i):
    在这里插入图片描述

  • 加入之前的价格上涨排名: 对股票在 t - 1 的价格上涨率进行排名,帮助学习股票之间的相互关系。

  • 给定两个股票 i 和 j ,计算他们的排名在坐标轴上的相对距离。引入股票在价格上涨率排名的相对位置,作为权重来增强或减弱注意力系数。

  • 具有相似的历史价格上涨率的股票,在注意力上具有更强的相互关系,根据所有其他股票的注意力计算赢家的分数,所以具有相似的赢家分数。

3.4 投资组合生成器

根据赢家分数{ s1, s2, …},买入分数高的股票,卖出分数低的股票。首先按照赢家分数对股票进行降序排序,计算股票的买入或卖出的比例,或者不买入也不卖出。

3.5 通过强化学习进行优化

使用离散的行动空间,二进制向量,1表示投资,0表示不投资。
将整个市场的夏普比率H0作为bias,在目标函数减去bias,再用梯度上升的方法求解。奖励不是直接给每一个step,而是给所有的step。

4. 模型解释

在 AlphaStock 模型中,LSTM-HA 和 CAAN 网络将原始股票特征作为赢家分数。 最终的投资组合直接从赢家的分数中生成。 AlphaStock 会选择什么样的股票作为赢家? 为了回答这个问题,我们提出了一种敏感性分析方法来解释股票的历史特征如何影响我们模型中的赢家得分。
用 s = F (X ) 表示一只股票的历史特征 X 对其赢家分数 s 的函数,s = F (X ) 是 LSTM-HA 和 CAAN 的组合网络。 使用 x(q) 来表示 X 的一个元素,即一个特征在回溯窗口的特定时间段内的值。分析x(q)对 s 的影响。

5. 实验

5.1 数据与实验设置

使用美国股市数据,从1970年1月到2016年12月,较长的时间段内涵盖了几次著名的市场事件,例如1995年-2000年的互联网泡沫、2007-2009的次贷危机。这些股票来自四个市场:NYSE、NYSE American、NASDAQ和NYSE Arca。1970年1月到1990年1月的数据作为训练集和验证集,其余作为测试集。
实验中,持有期设置为1个月,一项投资的持有期数T设置为12个,即RL每12个月计算一次夏普比率奖励。
回顾窗口大小 K 设置为 12,即我们回顾股票 12 个月的历史状态。 投资组合的规模 G 设置为所有股票数量的 1/4。

5.2 baseline方法

AlphaStock与多种baseline方法进行了比较,包括:

• Market: 买入并持有策略,表示市场的状态;
• Cross Sectional Momentum (CSM) and Time Series Momentum (TSM) :两种经典的动量策略;
• Robust Median Reversion (RMR): a newly reported reversion strategy;
• Fuzzy Deep Direct Reinforcement (FDDR): a newly reported RL-based BWSL strategy;
• AlphaStock-NC (AS-NC): 没有CAAN的AlphaStock模型,LSTM-HA的输出直接作为投资组合生成器的输入;
• AlphaStock-NP (AS-NP): 没有价格上涨排名的AlphaStock模型,使用基本的CAAN;

5.3 评价指标

累计收益CW(T):
在这里插入图片描述
平均年化收益率APR
平均年化波动率AVOL
年化夏普比率ASR:基于APR和AVOL
最大回撤MDD
Calmar 比率CR
下行偏差率DDR:衡量策略的下行风险,当其低于最低可接受收益(MAR,实验时MAR=0)时的收益平均值

5.4 美国股市的表现

在这里插入图片描述
图2是AlphaStock与baseline累计收益的比较。

在这里插入图片描述
表1列出了不同方法的各种评价指标,带下划线的表示值越低越好,其他是值越高越好。

5.5 中国股市的表现

数据来自WIND数据库。股票为A股的普通股,用于实验的股票总数为1131股,时间为2005年6月到2018年12月,2005年6月到2011年12月为训练集和验证集,其余为测试集。由于中国市场不能做空,所以实验中只使用做多的投资组合。
在这里插入图片描述

5.6 投资策略解释

在这里插入图片描述

我们使用敏感性分析法,分析不同股票特征对赢家分数的影响,
图3(a)-3(b)为交易特征的影响,纵轴表示影响强度,横轴表示交易时间的前几个月。例如,图3(a)中“-12”的柱状图表示12个月前股价上涨率的影响。前9-11个月的价格上涨率对赢家分数具有积极影响,前1-8个月则为消极影响,表明我们的模型倾向于购买长期来看价格上涨或短期价格下跌的股票。
图3(b)表示股票交易量的影响,与图3(a)趋势类似,因为价格上涨通常伴随着频繁的股票交易。图3(c)表明波动率对赢家分数产生负面影响。图3(d)表明模型倾向于选择基本面价值良好、分股息较少的公司。

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值