本文有 3816 字,22 图表截屏
建议阅读 20 分钟
休假中,硬着写一篇出来。
0
引言
本文是 AFML 系列的第四篇
特征抽样
三隔栏方法
众所周知,在用有监督学习算法对未来的金融产品收益情况进行预测时,需要从训练集中拟合一个模型,而第一步需要对训练集里每个样本打标签,即为每个 X(i) 标注一个 y(i),其中 i = 1, 2, ..., n。
本帖介绍两种方法:
固定时间区间方法(经典)
三隔栏方法(实际)
本帖里用的数据来自〖数据结构之 Pandas (下)〗6.1 小节,公众号回复 data 可以下载。
下面我们用苹果(代号 AAPL)一年的股票数据举例。
1
固定时间区间方法
几乎所有机器学习文献都使用了固定时间区间(Fixed-time Horizon, FH)方法对金融数据打标签。
这种方法简单直观,判断规则十分简单。在固定时间内对于某个股票,如果其收益
高于阈值 c,那么被分为正例 (用 +1 表示)
低于阈值 -c,那么被分为负例 (用 -1 表示)
在 -c 和 c 之间,被分为第三类 (用 0 表示)
用公式对上述规则进行表述。