背景介绍
根据WorldQuant发表的论文《101 Formulaic Alphas 》 ,其中公式化地给出了101个alpha因子。与传统方法不一样的是,他们根据数据挖掘的方法构建了101个alpha,据说里面80%的因子仍然还行之有效并被运用在实盘项目中。
在BigQuant策略研究平台上,可通过表达式快速进行因子构建和数据标注,再也不需要自己手动编写冗长代码。
表达式简介
因为在机器学习和深度学习中,因子是一个很重要的概念,也被称为特征,开发AI算法的关键在于特征选择。如果是简单的基础因子,比如近5日收益率: c l o s e 5 / c l o s e 0 − 1 close\\_5/close\\_0-1 close5/close0−1,因子构建比较简单,但是如果想构建近5日每日收益率和成交量的相关性这个因子就比较棘手,需要编写大量的代码来计算该因子。因此,我们设计了bigexpr表达式引擎。
bigexpr是BigQuant开发的表达式计算引擎,通过编写简单的表达式,就可以对数据做任何运算,而无需编写代码。
bigexpr在平台上被广泛使用,M.advanced_auto_labeler 和 M.derived_feature_extractor 都已经由bigexpr驱动,您可以用表达式就可以定义标注目标和完成后特征抽取。
正如刚刚提到的近5日每日收益率和成交量的相关性因子可以这样定义:
c o r r e l a t i o n ( c l o s e 0 / s h i f t ( c l o s e 0 , 1 ) − 1 , v o l u m e 0 , 5 ) correlation(close\\_0/shift(close\\_0,1)-1,volume\\_0,5) correlation(close0/shift(close0,1)−1