分享一个因子挖掘的利器：遗传规划

最新推荐文章于 2025-03-24 14:15:44 发布

量化密码库

最新推荐文章于 2025-03-24 14:15:44 发布

阅读量6.5k

点赞数 6

分类专栏：量化交易文章标签：量化研究策略研究量化策略因子

本文链接：https://blog.csdn.net/weixin_42219751/article/details/125478752

版权

量化交易专栏收录该内容

313 篇文章

订阅专栏

本文介绍了华泰证券的《人工智能系列》中使用遗传规划算法挖掘选股因子的方法，不同于传统演绎逻辑，遗传规划通过计算机搜索发掘复杂公式，如log(收盘价)/log(成交量)。模型展示了因子的迭代过程和优化结果，展示了因子挖掘的潜在可能性和扩展性挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

你是如何挖掘因子的呢？基于经验吗？但经验是有限的，总会有用尽的时候。基于研报或者论文等公开资料？但这类因子不可避免地涉及到因子拥挤问题，毕竟有效的因子，其他人也会用。

那么还有其他方法吗？答案是有。

今天我们便基于华泰证券的《人工智能系列之基于遗传规划的选股因子挖掘》，给大家介绍一款因子挖掘的利器： 遗传规划 。

什么是遗传规划？

遗传规划是演化算法的分支，是一种启发式的公式演化技术。它从随机生成的公式群体开始。通过模拟自然界中遗传进化的过程，来逐渐生成契合特定目标的公式群体。作为一种监督学习方法，遗传规划可以根据特定目标，发现某些隐藏的、难以通过人脑构建出的数学公式。传统的监督学习算法主要运用于特征与标签之间关系的拟合，而遗传规划则更多运用于特征挖掘（特征工程）。

——《人工智能系列分析报告之基于遗传规划的选股因子挖掘》

以往的因子研究都是“先有逻辑，后有公式”，是一种“演绎法”。但遗传规划的形式是“先有公式，后有逻辑”，属于“归纳法”。它的优势在于可以充分利用计算机的强大算力进行启发式搜索，同时突破人类的思维局限，挖掘出某些隐藏的、难以通过人脑构建的因子，为因子研究提供更多的可能性。

生物中的遗传进化会涉及到基因的遗传，变异，对生态环境的适应能力等情况，遗传规划算法中也是如此，也会有交叉变异、子树变异、点变异、Hoist变异和适应度等，具体细节可以查看研报或论文。

我们采用Python遗传规划项目中的gplearn模块包进行因子挖掘，模型的主要参数如下：

模型所要用到的数据如下：

测试品种：上证指数
回测区间：2010年01月01日-2022年05月31日
初始因子：开盘价、收盘价、最高价、最低价、成交量、收益率、成交量加权平均价
预测目标：未来5天收益率
函数列表：所有gplearn自带函数

准备好数据之后就可以开始训练模型了：

gp1 = SymbolicTransformer(generations=10, population_size=1000, function_set=function_set, init_depth=(1,4), tournament_size=20, metric='spearman', p_crossover=0.4, 
                          p_subtree_mutation=0.01, p_hoist_mutation=0, p_point_mutation=0.01, p_point_replace=0.40, 
                          warm_start=False, verbose=1,random_state=0, n_jobs=-1,feature_names=['open', 'close', 'high', 'low', 'volume', 'return_rate', 'vwap'])
...
gp1.fit(train,label)# 训练模型

模型会自动显示过程日志，其中Fitness是适应度，这里我们选用的是Spearman秩相关系数，相关系数越高，代表因子与未来5天收益率相关度越高 。