pandas中read_csv、rolling、expanding用法

最新推荐文章于 2025-02-20 07:00:00 发布

Suiiiii

最新推荐文章于 2025-02-20 07:00:00 发布

阅读量807

点赞数 1

CC 4.0 BY-SA版权

分类专栏：时间序列预测文章标签： python 数据分析

原文链接：https://baijiahao.baidu.com/s?id=1622798772654712959&wfr=spider&for=pc

时间序列预测专栏收录该内容

6 篇文章

订阅专栏

本文详细解析了Pandas库中rolling和expanding函数的使用方法，包括参数详解和代码实例。展示了如何利用这些函数处理时间序列数据，进行滑动窗口和扩展窗口的数据分析。

import pandas as pd
from pandas import DataFrame

series = pd.read_csv('daily-min-temperatures.csv',header=0, index_col=0,
                     parse_dates=True,squeeze=True)
temps = DataFrame(series.values)
width = 3
shifted = temps.shift(width-1)
print(shifted)
window = shifted.rolling(window=width)
dataframe = DataFrame()
dataframe = pd.concat([window.min(),window.mean(),window.max(),temps],axis=1)
dataframe.columns=['min','mean','max','t+1']
print(dataframe.head(5))

read_csv中参数用法：

当设置 header=None 时，则认为csv文件没有列索引，为其添加相应范围的索引，range(1,1200)指建立索引号从1开始最大到1199的列索引，当数据长度超过范围时，索引沿列数据的右侧对齐。

obj=pd.read_csv('testdata.csv',header=0,names=range(1,4))

当设置 header=0 时，则认为csv文件数据第一行是列索引，将用新的列索引替换旧的列索引。

obj=pd.read_csv('testdata.csv',index_col=0,usecols=[1,2,3])

当设置 index_col=0 时，则是csv文件数据的指定数据中的第一列是行索引，usecols指选中数据的对应列数，[1,2,3]指第2列到第4列。

obj=pd.read_csv('testdata.csv',index_col=0,usecols=5)

用usecols选择前n行数据进行后续处理，n为正整型。

rolling用法：

源代码

    def rolling(self, *args, **kwargs):
        """
        Return a rolling grouper, providing rolling functionality per group.
        """
        from pandas.core.window import RollingGroupby

        return RollingGroupby(self, *args, **kwargs)

    @Substitution(name="groupby")
    @Appender(_common_see_also)

在这里插入图片描述

用法代码演示

上面我们介绍了滑动窗口的概念及实现函数的参数，下面我们通过代码演示，依次展示各参数的作用。

import matplotlib.pylab as plt
import numpy as np
import pandas as pd
index=pd.date_range('20190116','20190130')
data=[4,8,6,5,9,1,4,5,2,4,6,7,9,13,6]
ser_data=pd.Series(data,index=index)
print(ser_data)

在这里插入图片描述

加入rolling使用时间窗后及具体原理

ser_data.rolling(3).mean()

在这里插入图片描述
min_periods用法
如上图所示，当窗口开始滑动时，第一个时间点和第二个时间点的时间为空，这是因为这里窗口长度为3，他们前面的数都不够3，所以到2019-01-18时，他的数据就是2019-01-16到2019-01-18三天的均值。那么有人就会这样想，在计算2019-01-16序列的窗口数据时，虽然不够窗口长度3，但是至少有当天的数据，那么能否就用当天的数据代表窗口数据呢？答案是肯定的，这里我们可以通过min_periods参数控制，表示窗口最少包含的观测值，小于这个值的窗口长度显示为空，等于和大于时有值，如下所示：

表示窗口最少包含的观测值为1

ser_data.rolling(3,min_periods=1).mean()

在这里插入图片描述

expanding用法

征用前面全部的数据
在这里插入图片描述
代码详解

import pandas as pd
from pandas import DataFrame

series = pd.read_csv('daily-min-temperatures.csv',header=0, index_col=0,
                     parse_dates=True,squeeze=True)
temps = DataFrame(series.values)
window = temps.expanding()
dataframe = DataFrame()
dataframe = pd.concat([window.min(),window.mean(),window.max(),temps.shift(-1)],axis=1)
dataframe.columns=['min','mean','max','t+1']
print(dataframe.head(5))