在之前的文章《量化小白也能自动化挖掘出6万+因子》中,介绍了如何基于77个基础因子就可以衍生出来6w+因子,这仿佛遇到了一个套娃式的问题:那如何找到数量可观的有效基础因子呢?
是啊,巧妇难为无米之炊,garbage in,garbage out,这些因子去哪里找呢?如果量化大神穿越回今天零基础开始学量化交易,那他如何收集到众多的量化因子并构建因子库呢?
之前找了几个量化大神交流了一下,仿佛找到了答案,今儿个就给大伙儿盘点一下那些极其适合量化萌新的因子库来源渠道,关键大部分还都是免费的~
这里再多提一嘴,因子库一般除了追求因子数量多之外,还有一个更重要的目标,那就是“全”,“多”不一定就是“全”。就好比分散化投资,不是买的股票多就行了的,股票要是集中在单一行业里面,风险也不见得小。所以因子库的构建,除了因子数量多之外,还要类别多、覆盖面广,兼顾各种环境和行情结构。
简单来说,量化因子是可以用来解释或预测证券收益的独立变量,一般分为基本面因子和量价因子。基本面因子又可以细分为估值因子、盈利因子、质量因子、成长因子、偿债因子、治理因子、红利因子、杠杆因子、营运效率因子、资本结构因子等。量价因子可以细分为规模因子、动量因子、反转因子、换手率因子、波动率因子、流动性因子、资金流因子、筹码分布因子等。下图是国内头部量化私募H方某500指增策略的因子结构,大伙儿可以感受一下。
还有一类因子,属于是构造比较清奇和个性化的,叫做另类因子,由于对萌新来说,数据难获取或处理复杂,在早期一般也不会接触到,比如说网络舆情、分析师预期、卫星遥感、天气水文等。
只要有K线那些行情数据,就能获取/计算量价数据,所以量价因子的通用化程度非常高,各种证券类别都适用。但因为股票财报数据结构化程度高,期货B圈产业链各异结构化程度差,导致一提到基本面因子基本都是只针对股票,期货B圈基本面因子非常少,因此,要根据自己做的投资领域,选择合适的因子类别。
一、量化书籍
大神们最开始的时候,除了骨骼清奇、天赋异禀的之外,也没有谁一上来就开挂的,初期也是得乖乖学习,关键这个时候不是先追求数量,而是先追求质量,建立正确的因子认知非常重要。
这个时候最好不要“东一榔头,西一棒槌”的碎片化学习,要成体系化学习,那最体系的莫过于书籍了,这里推荐两本经典书籍,分别是Richard Tortoriello的《Quantitative Strategies for Achieving Alpha》和James O'Shaughnessy的《What Works on Wall Street(Fourth Edition)》,如果不喜欢看英文原文的,它俩都有中文版,分别是《量化投资策略:如何实现超额收益Alpha》和《投资策略实战分析:华尔街股市经典策略20年推演》。
在这两本书里面,都列举出了许多对股市有驱动力的量化因子,并附有详尽的因子分析,让你明白每一个因子的金融逻辑,看到交易的本质。
前一本在之前推荐的20本量化书当中已经有过推荐,后一本在量化圈里面推荐得还比较少,但个人觉得,后一本书对因子的分析更为透彻,除了常规的分组回测那些有效性分析外,还会着重分析最好与最差情况以及各种场景,所以也重点推荐一下。
看书找量化因子这种方式,重点不在于因子数量,而在于学到量化因子的构建逻辑,不是天马行空的胡乱搭配,而是有明显的金融意义。
二、期刊论文
有了基础的因子认知以后,接下来,就可以广撒网,多捞鱼了。在量化因子相关的论文里,Alpha 101是怎么都绕不开的,在《101 Formulaic Alphas》这短短的22页论文里,你能看到101个“奇奇怪怪”的量化因子,不要惊叹于Zura大神天马行空的创意,在3年后,他还发表了有151个量化策略的论文《151 Trading Strategies》,我之前也给大伙儿介绍过了,不再赘述。
这样的因子合集类论文还有很多,Alpha 101是里面比较出名的,用心找肯定还有,就比如Kewei Hou的《Replicating Anomalies》,在将近150页的篇幅里,针对各种金融异象列举和测试了447个量化因子,其中包括57个动量因子、68个价值/成长因子、38个投资因子、79个盈利因子、103个无形资产因子和102个交易摩擦因子。
三、研究报告
这里的研究报告是特指金融工程研究报告或量化研究报告,下面简称“研报”。现在只要是上规模的券商,都会有自己的金融工程团队,隔三岔五会对外发布针对不同量化主题的研报。其实各大公募私募内部也会有研报,但是太私密了,同一公司不同小组间都难以互相窥见,所以现在市面的研报,绝大部分都是券商研报,这当中,很大一部分就是因子研报。
上面说过Alpha 101,就在它发布两年后,国泰君安金融工程团队发表了研报《基于短周期价量特征的多因子选股体系》,类似于Alpha 101的形式,提出了基于我国A股的191个短周期价量Alpha因子,因此坊间也俗称Alpha 191。
除了国君金工研报外,基本上每家券商金工团队都会出各种因子系列的研报,这里给大家列举一些,其中华泰系的金工因子系列研报非常不错,除了分门别类测试做得好之外,同时兼具股票股票和期货因子,非常值得量化萌新借鉴学习。
四、量化网站
书籍主要是用来建立因子认知基础,论文和研报主要用来收集和筛选因子,量化网站除了能实现前面这些功能外,还能实现那些因子,很多因子不需要自己用代码复现,直接就可以获取数据,进而构建量化策略。
现在各大量化平台上也都有专门的因子版块,实现了前文说的Alpha 101和Alpha 191因子,直接通过API接口就可以获取因子数据,除此之外还有常用的技术指标因子和自己的因子库(其中包含有Barra因子),还有个更便捷的【因子看板】功能,能非常方便地查看每个因子在不同场景下的绩效。
无须做延伸,利用好上文提到的书籍、论文、研报和网站,就可以迅速构建出800+个因子的基础因子库,如果再加上tsfresh、gplearn等特征自动挖掘工具,整个因子库的因子数量就可以拓展到几十万的级别,也许这些公开的因子库都会失效,但它提供的养分足以让我们茁壮成长,前人归纳,后人演绎。