Advance Finance Machine Learning读书笔记
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。
本人失业在家,正在读刚买的Advance Finance Machine Learning(AFML),基于此书全是英文,有些知识点需要再次整理与巩固,所以写一下这个系列。
之前有搜到大神weixin_38753422的AFML系列。写得很详细并且有代码和图片解释,链接在此
此系列从Part 1 Chapter 3开始写起,之前内容可以在上面的链接里看到。(注意并不是所有内容的整理,而是我个人觉得需要整理的内容)
本文讲的时Part 1 Chapter 4 Sample Weight(样本权重)
为何需要确定每个样本的权重?
因为在金融数据中的样本是无法满足IID的条件(样本之间独立同分布),而几乎所有的ML算法都是基于样本是独立同分布的基础之上。所以本Chapter就是为了解决这个问题
为何金融数据不满足IID?
我首先画个图
在上图中从左到右:
第一根黑竖线是第i个样本在第0时刻的时间点 标记为 t i , 0 t_i,_0 ti,0
第一根红竖线是第j个样本在第0时刻的时间点 标记为 t j , 0 t_j,_0 tj,0
第二根黑竖线是第i个样本在第1时刻的时间点 标记为 t i , 1 t_i,_1 ti,1
第二根红竖线是第j个样本在第0时刻的时间点 标记为 t j , 1 t_j,_1 tj,1
在这个时间序列中(样本i,样本j)就出现重叠数据,所以不满足独立的要求
(书上写得贼杰宝绕弯弯,吐槽一下)
是否能强制限制 t i , 1 t_i,_1 ti,1 一定早于 t j , 0 t_j,_0 tj,0 呢?
答案是不行的
- 这会导致我们采集数据的时间区间必须与结果的时间区间一致
(举个例子:如果我们想得到为期一个月的结果,特征也必须划分成一个月的Bar数据。如果我们想采集单日特征数据,则结果也成了一日的) - 加入我们label方式采用上一chapter的三隔栏方式(triple-barrier method),则你设定的时间区间必须要与每一个三隔栏内任意一隔栏触碰到的最小时间区间,不然触及到隔栏之后你还在采样,数据就有错误了
金融方面的ML技术并不是即插即用的
如何解决?引入样本权重指标(样本独立性)
- 第一步——寻找在 t 时刻共有几个样本出现了重叠 (注意本文与书中的01序列表示符号不同,书中是个1觉得有点迷)
——假设 y i y_i yi 与 y j y_j yj 存在相同时间区间 t 则他们至少存在相同的收益率 r t − 1 , t = p t p t − 1 − 1 r_t-_1,_t=\frac{p_t}{p_t-_1}-1 rt−1,t=pt−1pt−1( p t p_t pt代表 t 时刻的close price)
- 1. 样本数据的整个时间序列为 t ∈ [ 1 , T ] t\in[1,T] t∈[1,T],我们建立一个01序列 { l t , i } i = 1 , … … I ∈ { 0 , 1 } \{l_t,_i\}_{i=1,……I}\in\{0,1\} { lt,i}i=1,……I∈{ 0,1},
当且只当时间区间 [ t i , 0 , t i , 1 ] [t_i,_0,t_i,_1] [ti,0,ti,1] 与 [ t − 1 , t ] [ t-1 , t ] [t−1,t] 有重叠时 { l t , i } \{l_t,_i\} { lt,i} = 1 否则为0 (回忆一下, { [ t i , 0 , t i , 1 ] } i = 1 , … … I \{[t_i,_0,t_i,_1]\}_{i=1,……I}