解读:通过Stock Embedding的个股技术指标优化

写在前面

下面这篇文章的内容主要是来自发表于KDD 2019 的一篇文章《Individualized Indicator for All: Stock-wise Technical Indicator Optimization with Stock Embedding》。这篇文章针对不同个股的技术指标的有效性不同,提出了一种技术指标优化框架。并且针对不同个股的内在特征,提出了一种stock embedding的方法。实验验证了得到的embedding结果的有效性,以及基于优化后的指标可以实现较为理想的回测结果。原论文在文末进行获取。

1

摘要

技术分析是量化交易领域中最重要的投资方法之一,它试图通过分析金融资产的历史价格和成交量数据来预测股票走势。为了解决金融市场的低信噪、高不确定性的特质,通用技术分析开发技术交易指标,作为历史价格和成交量数据的数学总结,可以形成稳健和有利可图的投资策略的基础。但观察发现,不同技术指标对具有不同属性的个股的有效性不同,因此,这对于技术指标导向型的选股和投资是一个很大的挑战。

其中,为了解决这一问题,这篇论文中设计了一个技术交易指标优化(TTIO)框架,通过利用个体股票的属性来优化原始技术指标。为了获得股票属性的有效表示,文中用到了在word2vec中常用的skip-gram来学习股票嵌入。除此之外,具有相似属性的个股则通过由基金经理确定的投资组合来得到。基于学习到的股票表示,TTIO进一步学习一个重新缩放的网络,以优化指标的性能。最后,在真实股票市场数据上的大量实验表明,作者提出的方法可以获得对技术指标优化的有效股票表示,并且优化后的指标可以产生更准确的投资信号。

总而言之,这篇文章的contributions主要在于以下几个方面:

  • 提出了一种指标优化模型,通过整合个股的不同属性来获得较好的指标表现。

  • 为了对不同属性的股票进行表示,提出了一种基于基金经理集体行为的股票embedding方法。

  • 在真实股票数据上进行了实验,并利用实际投资策略中的指标来评估新指标优化方法的有效性

2

模型介绍

正如前面所指出的,不同属性的股票对同一指标有不同的亲和力。受此启发,有必要根据股票属性进行个体股票的调整,以改进现有的技术指标。因此,作者首先提出一种股票嵌入方法来表示股票的属性,然后基于提取的个股嵌入对技术指标进行优化。因此,模型的整体框架主要包括两个部分,分别是是股票的嵌入,另一个就是技术指标的优化

股票的嵌入(Stock Embedding)

在这部分中,股票嵌入的目标是获得反映股票属性的有效表示,这是基于具有类似属性的股票应有类似表示的规则。一个简单的方法是通过人类专家进行手工标签。然而,由于对其效率和稳健性的要求很高,这是相当不现实的。因此,文章试图从数据挖掘的角度来解决这个问题。具体来说,文中从市场上一群基金经理的历史投资组合中挖掘股票嵌入的潜在代表,即基金经理的投资组合中包含的股票可能具有相似的属性信息(这样子做也存在一系列问题,下一篇文章中将介绍)。进行股票嵌入的具体方法如下:

1、基金经理管理的基金中通常包含一系列的股票,而每位基金经理对不同的股票选择都有自己的偏好和专长。例如,一些经验丰富的基金经理可能更愿意继续投资于那些价格序列相对稳定的股票。因此,这些股票具有类似性质的可能性更大,因为它们往往由一批基金经理持有。因此,对于同一基金持有的股票,有助于学习类似的嵌入。

2、根据基金和构成基金的股票之间的关系,可以得到一个二部图   ,其中,   代表股票,   代表这些股票所属的基金,   代表基金到股票的投资关系,具体如下图所示:

3、在得到了Fund-Stock的二部图之后,再采用Random-Walk算法来生成采样序列。其中,一个股票节点   到一个基金节点   的概率表示为以下公式,   表示基金中该股票的份额:

同样地,我们也可以得到一个基金节点   到一个股票节点   的概率公式:

最后,再将生成的序列中去除基金节点,就可以得到很多条包含股票节点的采样序列了。

4、在得到了股票节点的采样序列之后,再通过skip-gram算法进行最大化邻居节点与它的特征表示之间的条件概率:

其中   表示节点   的邻近节点。然后,利用skip-gram架构,训练得到一个神经网络来预测每个节点实际出现在目标节点周围的邻近节点的概率。然后,通过训练后的神经网络的隐含层来获得针对每个股票的嵌入表示。

技术指标优化模型(Technical Trading Indicator Optimization Model)

在获得了股票的嵌入表示之后,接下来需要对技术指标进行优化。为了尽可能地保留原有指标的性质,文中提出了一种单层的重新尺度变化的网络,而新的指标仅仅是一个重新转换尺度后的原始指标。之所以选择通过通过简单的单层网络设计,是为了保证具有相似嵌入特征的股票具有相似的缩放分数。而如果我们的模型有很多层,那么高非线性无法保证这种特性。具体的优化模型的设计步骤如下:

1、首先,文中提出了一种re-scaling network,其中这个网络以股票的嵌入特征作为输入,然后学习得到针对每个个股的重新缩放后的每个技术指标。而这个缩放网络主要包括两个部分:一是缩放权重,即通过一个简单的网络来学习每个股票嵌入对应每个技术指标的缩放权重:

为了保证缩放后的权重处于一定的范围内,第二步是对所有股票的权重进行归一化处理,其中用到了softmax操作:

2、在得到了针对每个股票嵌入的缩放权重之后,在通过对原始技术指标与权重系数进行相乘即可以得到最终优化后的技术指标:

整体的模型架构是通过将信息系数(Information Correlation,IC)作为优化目标函数,然后基于梯度下降进行参数学习的。

3、最后,考虑到适应投资的动态性,作者又提出了一种Rotation Learning机制来随时间调整模型的参数。其中,Rotation Learning属于在线学习的一种。它可以按顺序数据用于更新,并预测未来数据的每一步,而不是通过所有的训练数据批量生成最佳预测器。该算法的算法流程图如下所示:

3

实验验证

数据集:交易指标用到了2013年到2016年超过2000支中国股票的7类交易指标。相关的基金的投资组合也来自2013年到2016年。另外,涉及的交易指标如下表所示:

为了评估模型的效果,文中与Raw(直接用交易指标)、Norm re-scales(标准化后的交易指标)、NoEmb(直接对交易指标进行re-scale,而没有embedding)以及Complex(将embedding以及re-scaled的指标通过两层神经网络进行输出)这四种方案进行了对比。最后,基于这五种指标构建一种多因子或者单因子选股策略进行信息系数、收益率方面的对比,其中信息系数的结果如下图所示:

收益率结果如下图所示,可以看到提出的方法(红线)在多因子和单因子策略中都实现了超过baseline模型的表现:

4

总结

在这篇论文中,作者提出了一个通用的、可解释的框架来优化从外部资源中挖掘出的隐性知识的技术指标。其中,首先提出了一种针对指标与股票之间的关系差异的新方法,并从经验投资者的集体行为中挖掘知识,从数据挖掘的角度来学习股票嵌入表示。然后,作者又提出了一个精心设计的缩放网络,以保留指标的原始属性,并为具有相似的嵌入表示的股票分配相似的重新标度权重。然而,作者提出的模型生成的指标并没有给出时序上的差异性,因此文中只是简单地用粗略的Rotation Learning方法将其适应于现实世界。因此,动态优化技术指标将留给以后的工作。

参考文献:

Zhige Li, Derek Yang, Li Zhao, Jiang Bian, Tao Qin, and Tie-Yan Liu. 2019. Individualized Indicator for All: Stock-wise Technical Indicator Optimization with Stock Embedding. In The 25th ACMSIGKDD Conference on Knowledge Discovery and Data Mining (KDD ’19), August 4–8, 2019, Anchorage, AK, USA. ACM, New York, NY, USA, 9 pages.

关注《人工智能量化实验室》公众号,后台发送070可获取原论文。

了解更多人工智能与
量化金融知识

<-请扫码关注

让我知道你在看

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值