时间排序_如何在Python里提升时间序列滚动排序函数(TS_RANK)的效率?

本文介绍了TS_RANK函数在时间序列分析中的应用,探讨了使用pandas.rolling、scipy.rankdata、bottleneck和numpy等方法的效率,并提出通过SortedList和numba加速实现,将计算时间降低至0.11S。此外,还提到了bottleneck库的move_data函数作为替代方案,强调了Python中优化算法和选择合适数据结构的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

473c5b919572a68529aea01bdcecdbf4.png

1. 何为TS_RANK?

TS_RANK(X, n)函数,是指在一个时间序列X上,循环计算每个固定窗口的最后一个值在这个窗口内的排序值。说的通俗一点,就是在每一个时刻看所关注的时间序列X当前取值在过去一段时间内的排序如何。特意讨论该函数是因为其在挖掘信号时的使用频率还是很高的。

举个例子,如果我有时间序列[1,2,3,4,5,6], 固定窗口为3,那么前两个下标由于向前回溯数据长度不足将不做运算,对于[1,2,3],由于3是最大的,所以序值为3。同理,继续循环推进,对于[2,3,4], [3,4,5], [4,5,6],最后一个值的序值也都为3。最后得到[3,3,3,3]。

考虑固定窗口不一样时,计算结果难以相互比较,故而可以将每次得到的序值除以窗口长度,从而将结果正则到[0,1]之间,对于上例,结果变为[1,1,1,1]。再举一个例子[1,6,5,2,4,3],则得到[0.66, 0.33, 0.66, 0.33]。

2. TS_RANK的Python实现

过去,大家喜欢用pandas.rolling()去实现这一类在时间序列上滚动循环计算的符号函数,假设价格dataframe为df,那么一般的写法为:

df.rolling(n).apply(lambda x: get_sort_value(x)/n)

由于pandas没有自带与rolling耦合的获取排序值的内置函数,我们需要使用apply+lambda的写法进而利用自写的get_sort_value去获取最后一个元素的排序值。根据我们的要求,get_sort_value是一个传入array返回最后一个元素排序值的函数,这里除以n则是为了正则化。

对于核心的get_sort_value,可实现的方法有很多种,这些code来自于https://github.com/pandas-dev/pandas/issues/9481的讨论,有一些小错误,笔者做了修改。

def rollingRankOnSeries(array):
    s = pd.Series(array)
    return s.rank(method='min', ascending=False)[len(s)-1]

def rollingRankSciPy(array):
     return array.size + 1 - sc.stats.rankdata(array)[-1]

def rollingRankBottleneck(array):
    return array.size + 1 - bd.rankdata(array)[-1]

def rollingRankArgSort(array):
    return array.size - array.argsort().argsort()[-1]

其中,第一种实现是利用pandas的rank函数,由于将array转化为了series效率较低不做讨论,第二种实现使用了scipy的rankdata函数,第三者实现用了bottleneck的库函数,最后一种则是numpy的内置函数argsort。

实验证明,BottleNeck的rankdata效率略高于Scipy和Numpy,平均用时4S,而Scipy和Numpy需要6S。

3. 提速

事实上,我们一定还可以更快。原因是因为之前我们的操作是每次将一个窗口序列都分开对待,导致每次都必须进行一次O(nlogn)的排序。但实际上,由于时间序列前后的重合性,我们在这一时刻做排序用的时间序列与上一时刻的比,只差了一个元素。

举个例子,对于时间序列[1,2,3,4,5,6]与窗口值4,我们在排序好[1,2,3,4]之后,在下一次排序只需要从[1,2,3,4]中移除1,增添5,再获取5的序值即可。于是我们发现,其实可以使用一个更好的数据结构去实现我们的目标,这个数据结构的要求是:可以存储时间序列,并可以高效实现增添删除获取序的操作。

虽然想法是美好的,但我们也需考虑Python的实现速度问题。由于高效的库函数都是基于C/C++实现的,如果我们无法找到合适的库函数,自己手撸一个只会更慢。笔者经过简单的搜索,找到了一个勉强OK的方法:SortedList。SortedList是sortedcontainers包里的一个函数,可以在add,pop操作时保持排序特性。

@jit
def TS_RANK(x, n):
    sl = SortedList(x[:n])
    for i in range(n,len(x)):
        sl.add(x[i])
        res.append(sl.bisect_left(x[i]) / n)
        res.pop(0)
    return res

新的TS_RANK函数实现如上,用到了numba加速,测试后速度提升为0.11S,比起暴力numpy快了50多倍。

好在Python也还是为我们提供了更优雅的用法,且就在我们提到的bottleneck库里,move_data就可以做到moving window的last value的rank值计算,且写法简单:

bk.move_data(x)

经过测试,速度为0.09S,和我们的手写版本相当。

不过这个函数也有缺点,那就是对于前n的元素的操作能力一般,全部赋了缺失值,如果n较大会造成一些问题。而对于我们自写的函数,可以灵活的根据我们的需要对前n个值的赋值规则进行修改。所以具体采用哪个,还需大家仔细斟酌。

4. 结语

本文证明了numpy+好的算法思路+numba是可以极大逼近他人的C版本的。同时,大部分Python新手可能连4-6s的初级方案都无法达到,当数据量陡增之时,这也是会极大影响quant们的研究效率的。

最后,如果大家有其他更有效的实现方法,也欢迎在文章下面留言讨论,共同进步。

04-02
### Pandas 中 `rank` 方法的用法 Pandas 的 `DataFrame.rank()` 和 `Series.rank()` 是用于计算排名的方法。它可以根据数值大小分配排名,支持多种参数来调整排名方式。 以下是关于该方法的一些重要特性和示例: #### 基本语法 ```python DataFrame.rank(axis=0, method='average', numeric_only=None, na_option='keep', ascending=True, pct=False) ``` - **axis**: {0 or ‘index’, 1 or ‘columns’},默认为 0。指定沿哪个轴进行操作。 - **method**: {'average', 'min', 'max', 'first', 'dense'},定义如何处理相同值的情况[^1]。 - `'average'`: 将具有相同值的位置取平均秩。 - `'min'`: 使用最小秩。 - `'max'`: 使用最大秩。 - `'first'`: 按照它们在数组中的位置赋秩。 - `'dense'`: 类似于‘min’,但它不会跳过任何等级。 - **numeric_only**: 如果设置为 True,则仅对数值列执行排名,默认为 None。 - **na_option**: {'keep', 'top', 'bottom'}, 默认为 'keep'。控制缺失值 (NaN) 如何参与排序。 - `'keep'`: 缺失值保持原样并被排除在外。 - `'top'`: 缺失值放在顶部(如果升序排列)。 - `'bottom'`: 缺失值放在底部(如果降序排列)。 - **ascending**: bool,默认为 True。决定是否按升序还是降序排列。 - **pct**: bool,默认为 False。如果是 True,则返回百分位数而不是实际排名。 #### 示例代码 下面是一个简单的例子展示不同选项的效果: ```python import pandas as pd df = pd.DataFrame({ 'A': [1, 2, 2, 4], 'B': [4, 3, 2, 1], 'C': [pd.NA, 2, 2, 0] }) print(df) # 计算每列的排名,默认方法是 average result_average = df.rank(method="average", axis=0) print(result_average) # 使用 min 方法 result_min = df.rank(method="min", axis=0) print(result_min) # 处理 NA 值的不同策略 result_na_top = df.rank(na_option="top", axis=0) print(result_na_top) ``` 上述代码展示了不同的配置下产生的结果差异。注意当存在 NaN 数据时的行为变化以及各种 ranking methods 对最终输出的影响[^2]。 对于时间序列分析或者金融数据分析来说,有时还需要结合滚动窗口函数一起使用以实现更复杂的统计需求,比如移动平均后的排名等场景可以参考如下扩展应用案例[^3]: ```python # 创建一个随机的时间序列 DataFrame 并对其进行滚动窗口内的排名运算 ts_df = pd.DataFrame({'values': np.random.randn(10)}) rolling_ranked = ts_df['values'].rolling(window=3).apply(lambda x: pd.Series(x).rank().iloc[-1], raw=False) print(rolling_ranked) ``` 此片段演示了基于最近三个周期的数据点来进行局部范围内的动态排名评估过程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值