python从大到小排序函数_如何在Python里提升时间序列滚动排序函数(TS_RANK)的效率?...

本文探讨了如何提高Python中TS_RANK函数的效率,通过比较不同实现方法,包括pandas.rolling()、scipy和bottleneck的rankdata,以及自定义的SortedList与numba加速。实验结果显示,结合numba的SortedList方法和bottleneck的move_data能显著提升计算速度,降低至0.11S和0.09S。文章鼓励读者分享更多优化策略。
摘要由CSDN通过智能技术生成

1. 何为TS_RANK?

TS_RANK(X, n)函数,是指在一个时间序列X上,循环计算每个固定窗口的最后一个值在这个窗口内的排序值。说的通俗一点,就是在每一个时刻看所关注的时间序列X当前取值在过去一段时间内的排序如何。特意讨论该函数是因为其在挖掘信号时的使用频率还是很高的。

举个例子,如果我有时间序列[1,2,3,4,5,6], 固定窗口为3,那么前两个下标由于向前回溯数据长度不足将不做运算,对于[1,2,3],由于3是最大的,所以序值为3。同理,继续循环推进,对于[2,3,4], [3,4,5], [4,5,6],最后一个值的序值也都为3。最后得到[3,3,3,3]。

考虑固定窗口不一样时,计算结果难以相互比较,故而可以将每次得到的序值除以窗口长度,从而将结果正则到[0,1]之间,对于上例,结果变为[1,1,1,1]。再举一个例子[1,6,5,2,4,3],则得到[0.66, 0.33, 0.66, 0.33]。

2. TS_RANK的Python实现

过去,大家喜欢用pandas.rolling()去实现这一类在时间序列上滚动循环计算的符号函数,假设价格dataframe为df,那么一般的写法为:

df.rolling(n).apply(lambda x: get_sort_value(x)/n)

由于pandas没有自带与rolling耦合的获取排序值的内置函数,我们需要使用apply+lambda的写法进而利用自写的get_sort_value去获取最后一个元素的排序值。根据我们的要求,get_sort_value是一个传入array返回最后一个元素排序值的函数,这里除以n则是为了正则化。

对于核心的get_sort_value,可实现的方法有很多种&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值