[转]高频交易数据的时间序列如何建模

作者:董可人
链接:https://www.zhihu.com/question/26464548/answer/40255750
来源:知乎

两种思路。
第一个是对数据进行 down sample,原始的高频数据虽然是非等间距的,你可以自己定义一个时间间隔重新抽样。这个时候需要注意的是在抽样的时候需要仔细设计方法来计算抽样点的各项数值(价格,成交量等)。简单的做法是用原始数据 fit 出一条曲线,然后按照新的时间点取曲线上对应的值,或者算抽样时间间隔内数据点的加权平均,权值可以是数据点之间的时间差,或者成交量之类。这种方法做完之后就可以用常用的时序模型的技术了。
第二个就是所谓的 Point Process,直接对时间点进行建模(而非像时间序列模型是对抽样点的数据进行建模)。最简单的 Point Process 是一般概率统计课上都会教的 Poisson Process,它的特点是每次事件发生都是独立的,时间差复合指数分布。其它答案中提到的 ACD 是一种升级版,对事件间的时间差进行建模,刻画了事件之间会彼此影响的情况。这个模型技术上跟 ARMA 是一套,只不过把时间序列换成了事件序列的时间差而已。另外有一种 Point Process 族是对单位时间内事件发生的概率密度进行建模的,学术界研究比较多的一种叫 Hawkes Process,以前主要用来对地震的余震进行建模,后来大家觉得地震这玩意跟金融交易里的震荡也挺像,有一批人就尝试往过套。Hawkes Process 的思路是说历史上发生的事情对未来的概率密度函数有影响,只是随着时间流逝这种影响会逐渐减弱(Decay)。技术上就是做一个 Kernel,所有的历史事件都输入这个Kernel 来计算对未来的影响,Kernel本身做成 Decay 的形式就可以模拟衰减了。ACD 和 Hawkes Process 的比较也有人做过,比如这里 :http://arxiv.org/abs/1306.2245Point
Process 还有一个高级点的变种叫做 Masked Point Process,思路是把每个事件的相关数据作为标记(Mask)附加到时间点上,这样模型在对时间点建模的同时也兼顾了数据。而且这种标记可以是多个,对交易数据来说,价格,成交量,波动性等都可以作为标记。这样可以极大地大扩充模型的描述能力。总的来说这两种模型的路子都算做是 Q 宗。这种模型最大的问题在于,它的底层技术设计可以非常漂亮,各种数学性质都很完备,但是你把它往数据上一套,就会发现问题很多,很多时候连基本的统计检验都通不过。有一个原因是,这些模型本身的思路出发点非常好,但问题是数据质量很难保证,要是你拿到的是不知经过了几层处理的 N 手数据,就更是很难说清问题究竟出在哪(具体例子见 http://arxiv.org/abs/1308.6756)。要知道高精度的 timestamped 交易数据是相当难求的,但如果时间都不准的话又怎么上模型呢?当然虽然有这些困难,这也正是高频量化建模这个领域吸引人的地方,有难度才有挑战。既然现有的模型都不好用,就更是急需学术界的精英们赶快开发新模型。而如果从实际的角度说,策略的思路是比模型更重要的事情。毫秒级甚至以下这个尺度上,基本上就是统计套利和高频做市的天下,做别的难度都会太大而不划算了。。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值