gplearn改进：gplearnplus介绍

量化就是探索生活

于 2024-04-25 13:48:30 发布

阅读量1.1k

点赞数 28

分类专栏：机器学习因子挖掘文章标签：人工智能数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43420026/article/details/136026523

版权

机器学习同时被 2 个专栏收录

2 篇文章

订阅专栏

1 篇文章

订阅专栏

gplearnplus

对gplearn进行升级，适应时序数据和面板数据，适用于更多的场景
且在函数参数中区分分类数据和数值型数据，可兼容类似于groupby等操作
github链接：gplearnplus
与gplearn类似的细节可参考前文
gplearn原理解析及参数分析

_Program

构建，调用公式树模块，
对象为_Program
属性program为栈形式的公式树

公式树的形式

在这里插入图片描述
该公式表达是为
$((X_0 \times X_0) - (3.0 \times X_1)) + 0.5$

program结果栈为：
['add', 'sub', 'mul', '0', '0', 'mul', 3.0, '1', 0.5]

公式树初始化

build_program
通过stack对树进行深度优先搜索构建

树的检验

validate_program
对树一次深度优先搜索，保证所有节点完备，即每一个函数参数量足够
_depth
深度优先搜索的同时记录最大深度
_length
返回program长度，即树的节点数量

树的打印

__str__：打印树
export_graphviz：可视化整个树

公式树的计算

execute：接受pandas或者二位nd_array，shape = [n_samples, n_features]
执行过程中，将program中的字符串和常数处理成可接受参数

常数需要广播成常向量
字符串转换为输入X中对应的列
若数据类型为面板数据panel，X中需要额外输入证券列和时间列，

raw_fitness：原始适应度

由公式树计算出 $\hat{y}$
对 $\hat{y}$ 进行调整
计算 $y$ 与 $\hat{y}$ 的适应度metric

fitness：带惩罚项适应度
$penalty=p\_coef \times program\_len \times sign(metric)$

样本选择(防止过拟合)

为了防止过拟合，仅选择部分样本
get_all_indices 输入总样本量和抽样样本量
返回抽样内样本index和抽样外样本index

公式树交叉变异

get_sub_tree(random_state, program=None)：获取子树

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

量化就是探索生活 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。