pandas教程02---Series处理时间

欢迎关注公众号【Python开发实战】,免费领取Python学习电子书!

工具-pandas

pandas库提供了高性能、易于使用的数据结构和数据分析工具。其主要数据结构是DataFrame,可以将DataFrame看做内存中的二维表格,如带有列名和行标签的电子表格。许多在Excel中可用的功能都可以通过编程实现,例如创建数据透视表、基于其他列计算新列的值、绘制图形等。还可以按照列的值对行进行分组,或者像SQL中那样连接表格。pandas也擅长处理时间序列。

但是介绍pandas之前,需要有numpy的基础,如果还不熟悉numpy,可以查看numpy快速入门教程

导入pandas

import pandas as pd

处理时间

许多数据集都有时间戳,pandas在处理此类数据方面也非常出色:

  • 它可以表示时期(如2016年第三季度)和频率(如每月)。
  • 它可以将时期转换为实际的时间戳,反之亦然。
  • 它可以按照任何方式对数据进行重采样和聚合。
  • 它可以处理时区。

时间范围

可以使用pd.date_range()创建一个时间Series,它会返回一个DatetimeIndex,现在创建一个DatetimeIndex,内容为从2021年10月29日下午5:30开始的12小时内每小时的一个datetime。

dates = pd.date_range('2016/10/29 5:30pm', periods=12, freq='H')
dates

输出:

DatetimeIndex(['2016-10-29 17:30:00', '2016-10-29 18:30:00',
               '2016-10-29 19:30:00', '2016-10-29 20:30:00',
               '2016-10-29 21:30:00', '2016-10-29 22:30:00',
               '2016-10-29 23:30:00', '2016-10-30 00:30:00',
               '2016-10-30 01:30:00', '2016-10-30 02:30:00',
               '2016-10-30 03:30:00', '2016-10-30 04:30:00'],
              dtype='datetime64[ns]', freq='H')

DatetimeIndex可以用作Series的索引标签。

temp_series = pd.Series(temperatures, index=dates)
temp_series

输出:

2016-10-29 17:30:00    4.4
2016-10-29 18:30:00    5.1
2016-10-29 19:30:00    6.1
2016-10-29 20:30:00    6.2
2016-10-29 21:30:00    6.1
2016-10-29 22:30:00    6.1
2016-10-29 23:30:00    5.7
2016-10-30 00:30:00    5.2
2016-10-30 01:30:00    4.7
2016-10-30 02:30:00    4.1
2016-10-30 03:30:00    3.9
2016-10-30 04:30:00    3.5
Freq: H, dtype: float64

现在绘制一下这个Series。

temp_series.plot(kind='bar')
plt.grid(True)
plt.show()

在这里插入图片描述

重采样

pandas可以非常简单地对时间Series进行重采样。只需要调用resample()方法并制定一个新的频率。

temp_series_freq_2H = temp_series.resample('2H')
temp_series_freq_2H

输出:

DatetimeIndexResampler [freq=<2 * Hours>, axis=0, closed=left, label=left, convention=start, base=0]

重采样操作实际上是一个延迟操作,这就是为什么没有得到一个Series对象,而是一个DatetimeIndexResampler对象。为了实际执行重采样操作,可以调用mean()方法,pandas会计算每对连续小时的平均值。

temp_series_freq_2H = temp_series_freq_2H.mean()
temp_series_freq_2H

输出:

2016-10-29 16:00:00    4.40
2016-10-29 18:00:00    5.60
2016-10-29 20:00:00    6.15
2016-10-29 22:00:00    5.90
2016-10-30 00:00:00    4.95
2016-10-30 02:00:00    4.00
2016-10-30 04:00:00    3.50
Freq: 2H, dtype: float64

现在绘制一下结果。

temp_series_freq_2H.plot(kind='bar')
plt.show()

在这里插入图片描述

请注意,这些值是如何自动聚合为以2小时为一个时期的。例如,看一下下午6-8点的时间段,在下午6.30时的值为5.1, 在晚上7.30时的值为6.1,重新采样后只有一个值5.6,即5.1和6.1的平均值。除了计算平均值,还可以使用其他的聚合函数,例如可以保持每个时期的最小值。

temp_series_freq_2H = temp_series.resample('2H').min()
temp_series_freq_2H

输出:

2016-10-29 16:00:00    4.4
2016-10-29 18:00:00    5.1
2016-10-29 20:00:00    6.1
2016-10-29 22:00:00    5.7
2016-10-30 00:00:00    4.7
2016-10-30 02:00:00    3.9
2016-10-30 04:00:00    3.5
Freq: 2H, dtype: float64

还可以使用apply方法。

temp_series_freq_2H = temp_series.resample('2H').apply(np.min)
temp_series_freq_2H

输出:

2016-10-29 16:00:00    4.4
2016-10-29 18:00:00    5.1
2016-10-29 20:00:00    6.1
2016-10-29 22:00:00    5.7
2016-10-30 00:00:00    4.7
2016-10-30 02:00:00    3.9
2016-10-30 04:00:00    3.5
Freq: 2H, dtype: float64

上采样和插值

上面是一个下采样的例子。也可以增加采样(即增加频率),但这会在数据中造成缺失。

temp_series_freq_15min = temp_series.resample('15Min').mean()
temp_series_freq_15min.head(10)    # head(10)显示前10个数据

输出:

2016-10-29 17:30:00    4.4
2016-10-29 17:45:00    NaN
2016-10-29 18:00:00    NaN
2016-10-29 18:15:00    NaN
2016-10-29 18:30:00    5.1
2016-10-29 18:45:00    NaN
2016-10-29 19:00:00    NaN
2016-10-29 19:15:00    NaN
2016-10-29 19:30:00    6.1
2016-10-29 19:45:00    NaN
Freq: 15T, dtype: float64

可以通过差值来填补缺失值。只需要调用interpolate()方法,默认情况下使用线性插值,但是可以选择其他方法,例如立方插值。

temp_series_freq_15min = temp_series.resample('15Min').interpolate(method='cubic')
temp_series_freq_15min.head(10)

输出:

2016-10-29 17:30:00    4.400000
2016-10-29 17:45:00    4.452911
2016-10-29 18:00:00    4.605113
2016-10-29 18:15:00    4.829758
2016-10-29 18:30:00    5.100000
2016-10-29 18:45:00    5.388992
2016-10-29 19:00:00    5.669887
2016-10-29 19:15:00    5.915839
2016-10-29 19:30:00    6.100000
2016-10-29 19:45:00    6.203621
Freq: 15T, dtype: float64
temp_series.plot(label='Period: 1 hour')
temp_series_freq_15min.plot(label='Period: 15 minutes')
plt.legend()
plt.show()

在这里插入图片描述

时区

默认情况下,日期时间是无知的:它们不知道时区,所以2021-10-30 02:30可能是巴黎时间也可能是纽约时间。可以通过调用tz_localize()方法来识别日期时间的时区。

temp_series_ny = temp_series.tz_localize('America/New_York')
temp_series_ny

输出:

2016-10-29 17:30:00-04:00    4.4
2016-10-29 18:30:00-04:00    5.1
2016-10-29 19:30:00-04:00    6.1
2016-10-29 20:30:00-04:00    6.2
2016-10-29 21:30:00-04:00    6.1
2016-10-29 22:30:00-04:00    6.1
2016-10-29 23:30:00-04:00    5.7
2016-10-30 00:30:00-04:00    5.2
2016-10-30 01:30:00-04:00    4.7
2016-10-30 02:30:00-04:00    4.1
2016-10-30 03:30:00-04:00    3.9
2016-10-30 04:30:00-04:00    3.5
Freq: H, dtype: float64

请注意,-04:00是附加到所有的日期时间上,这意味着这些日期时间指的是UTC-04小时。现在可以将这些日期时间转为巴黎时间。

temp_series_paris = temp_series_ny.tz_convert('Europe/Paris')
temp_series_paris

输出:

2016-10-29 23:30:00+02:00    4.4
2016-10-30 00:30:00+02:00    5.1
2016-10-30 01:30:00+02:00    6.1
2016-10-30 02:30:00+02:00    6.2
2016-10-30 02:30:00+01:00    6.1
2016-10-30 03:30:00+01:00    6.1
2016-10-30 04:30:00+01:00    5.7
2016-10-30 05:30:00+01:00    5.2
2016-10-30 06:30:00+01:00    4.7
2016-10-30 07:30:00+01:00    4.1
2016-10-30 08:30:00+01:00    3.9
2016-10-30 09:30:00+01:00    3.5
Freq: H, dtype: float64

上面的结果里面UTC偏移量从+02:00变为+01:00,这是因为法国在该特定的夜晚的凌晨3点切换到冬季时间了(时间回到凌晨2点)。请注意,凌晨2:30出现了两次!现在回到一个简单的表示,使用本地时间每小时记录这些数据,而不是存储时区,可能会得到一下结果。

temp_series_paris_native = temp_series_paris.tz_localize(None)
temp_series_paris_native

输出:

2016-10-29 23:30:00    4.4
2016-10-30 00:30:00    5.1
2016-10-30 01:30:00    6.1
2016-10-30 02:30:00    6.2
2016-10-30 02:30:00    6.1
2016-10-30 03:30:00    6.1
2016-10-30 04:30:00    5.7
2016-10-30 05:30:00    5.2
2016-10-30 06:30:00    4.7
2016-10-30 07:30:00    4.1
2016-10-30 08:30:00    3.9
2016-10-30 09:30:00    3.5
Freq: H, dtype: float64

现在02:30很模糊,如果试图将这些日期时间定位到巴黎时区,将会得到一个错误。

try:
    temp_series_paris_native.tz_localize('Europe/Paris')
except Exception as e:
    print(type(e))
    print(e)

输出:

<class 'pytz.exceptions.AmbiguousTimeError'>
Cannot infer dst time from '2016-10-30 02:30:00', try using the 'ambiguous' argument

使用ambiguous参数,可以告诉pandas根据模糊时间戳的顺序推断出正确的DST(夏令时)。

temp_series_paris_native.tz_localize('Europe/Paris', ambiguous='infer')

输出:

2016-10-29 23:30:00+02:00    4.4
2016-10-30 00:30:00+02:00    5.1
2016-10-30 01:30:00+02:00    6.1
2016-10-30 02:30:00+02:00    6.2
2016-10-30 02:30:00+01:00    6.1
2016-10-30 03:30:00+01:00    6.1
2016-10-30 04:30:00+01:00    5.7
2016-10-30 05:30:00+01:00    5.2
2016-10-30 06:30:00+01:00    4.7
2016-10-30 07:30:00+01:00    4.1
2016-10-30 08:30:00+01:00    3.9
2016-10-30 09:30:00+01:00    3.5
Freq: H, dtype: float64

时期

period_range()函数返回一个PeriodIndex,不是DatetimeIndex。例如,现在创建一个PeriodIndex,内容为2016和2017年所有的季度。

quarters = pd.period_range('2016Q1', periods=8, freq='Q')
quarters

输出:

PeriodIndex(['2016Q1', '2016Q2', '2016Q3', '2016Q4', '2017Q1', '2017Q2',
             '2017Q3', '2017Q4'],
            dtype='period[Q-DEC]', freq='Q-DEC')

将一个数字N加到PeriodIndex上,会将时期移动N倍的PeriodIndex频率。

quarters + 3

输出:

PeriodIndex(['2016Q4', '2017Q1', '2017Q2', '2017Q3', '2017Q4', '2018Q1',
             '2018Q2', '2018Q3'],
            dtype='period[Q-DEC]', freq='Q-DEC')

asfreq()方法可以改变PeriodIndex的频率。所有的时期都会相应地延长或缩短。例如,将quarters季度时期转换为月度时期,即放大了时期。

quarters.asfreq(freq='M')

输出:

PeriodIndex(['2016-03', '2016-06', '2016-09', '2016-12', '2017-03', '2017-06',
             '2017-09', '2017-12'],
            dtype='period[M]', freq='M')

默认情况下,asfreq是在每个时期结束时缩放。可以设置为在每个时期开始时缩放,即设置how参数为start或S。

quarters.asfreq(freq='M', how='S')

输出:

PeriodIndex(['2016-01', '2016-04', '2016-07', '2016-10', '2017-01', '2017-04',
             '2017-07', '2017-10'],
            dtype='period[M]', freq='M')

还可以缩小时期。

quarters.asfreq('A')    # A表示频率为年

输出:

PeriodIndex(['2016', '2016', '2016', '2016', '2017', '2017', '2017', '2017'], dtype='period[A-DEC]', freq='A-DEC')

当然,可以根据PeriodIndex创建一个Series。

quartersua_revenue = pd.Series([300, 320, 290, 390, 320, 360, 310, 410], index=quarters)
quartersua_revenue

输出:

2016Q1    300
2016Q2    320
2016Q3    290
2016Q4    390
2017Q1    320
2017Q2    360
2017Q3    310
2017Q4    410
Freq: Q-DEC, dtype: int64
quartersua_revenue.plot(kind='line')
plt.show()

在这里插入图片描述

可以通过调用时间Series的to_timestamp方法将时期转换为时间戳。默认情况下,转换为每个时期的第一天,但可以通过设置how和freq两个参数,获得每个时期的最后一个小时。

last_hours = quartersua_revenue.to_timestamp(freq='H', how='E')
last_hours

输出:

2016-03-31 23:00:00    300
2016-06-30 23:00:00    320
2016-09-30 23:00:00    290
2016-12-31 23:00:00    390
2017-03-31 23:00:00    320
2017-06-30 23:00:00    360
2017-09-30 23:00:00    310
2017-12-31 23:00:00    410
Freq: Q-DEC, dtype: int64

现在想将时间戳转换为时期,可以通过调用to_period方法。

last_hours.to_period()

输出:

2016Q1    300
2016Q2    320
2016Q3    290
2016Q4    390
2017Q1    320
2017Q2    360
2017Q3    310
2017Q4    410
Freq: Q-DEC, dtype: int64

这里还有一个例子,就是获取由2016年每个月的最后一个工作日的上午九点组成的PeriodIndex。

months_2016 = pd.period_range('2016', periods=12, freq='M')
months_2016

输出:

PeriodIndex(['2016-01', '2016-02', '2016-03', '2016-04', '2016-05', '2016-06',
             '2016-07', '2016-08', '2016-09', '2016-10', '2016-11', '2016-12'],
            dtype='period[M]', freq='M')
one_day_after_last_days = months_2016.asfreq(freq='D', how='E')
one_day_after_last_days

输出:

PeriodIndex(['2016-01-31', '2016-02-29', '2016-03-31', '2016-04-30',
             '2016-05-31', '2016-06-30', '2016-07-31', '2016-08-31',
             '2016-09-30', '2016-10-31', '2016-11-30', '2016-12-31'],
            dtype='period[D]', freq='D')
one_day_after_last_days = one_day_after_last_days + 1
one_day_after_last_days

输出:

PeriodIndex(['2016-02-01', '2016-03-01', '2016-04-01', '2016-05-01',
             '2016-06-01', '2016-07-01', '2016-08-01', '2016-09-01',
             '2016-10-01', '2016-11-01', '2016-12-01', '2017-01-01'],
            dtype='period[D]', freq='D')
one_day_after_last_days.to_timestamp()

输出:

DatetimeIndex(['2016-02-01', '2016-03-01', '2016-04-01', '2016-05-01',
               '2016-06-01', '2016-07-01', '2016-08-01', '2016-09-01',
               '2016-10-01', '2016-11-01', '2016-12-01', '2017-01-01'],
              dtype='datetime64[ns]', freq='MS')
last_b_days = one_day_after_last_days.to_timestamp() - pd.tseries.offsets.BDay()
last_b_days

输出:

DatetimeIndex(['2016-01-29', '2016-02-29', '2016-03-31', '2016-04-29',
               '2016-05-31', '2016-06-30', '2016-07-29', '2016-08-31',
               '2016-09-30', '2016-10-31', '2016-11-30', '2016-12-30'],
              dtype='datetime64[ns]', freq='BM')
last_b_days.to_period('H') + 9

输出:

PeriodIndex(['2016-01-29 09:00', '2016-02-29 09:00', '2016-03-31 09:00',
             '2016-04-29 09:00', '2016-05-31 09:00', '2016-06-30 09:00',
             '2016-07-29 09:00', '2016-08-31 09:00', '2016-09-30 09:00',
             '2016-10-31 09:00', '2016-11-30 09:00', '2016-12-30 09:00'],
            dtype='period[H]', freq='H')

07-29’, ‘2016-08-31’,
‘2016-09-30’, ‘2016-10-31’, ‘2016-11-30’, ‘2016-12-30’],
dtype=‘datetime64[ns]’, freq=‘BM’)

last_b_days.to_period('H') + 9

输出:

PeriodIndex(['2016-01-29 09:00', '2016-02-29 09:00', '2016-03-31 09:00',
             '2016-04-29 09:00', '2016-05-31 09:00', '2016-06-30 09:00',
             '2016-07-29 09:00', '2016-08-31 09:00', '2016-09-30 09:00',
             '2016-10-31 09:00', '2016-11-30 09:00', '2016-12-30 09:00'],
            dtype='period[H]', freq='H')
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: pandas-official-tut-zh epub是指Pandas官方教程的中文电子书格式。Pandas是一个强大的数据分析和处理库,被广泛应用于数据科学和数据分析领域。Pandas官方教程提供了详细的指导和示例,帮助用户学习和使用Pandas库。 这本Pandas官方教程的中文电子书以epub格式提供,这意味着我们可以在支持epub格式的电子书阅读器或软件中阅读它。epub格式是一种开放的电子书标准,可以自由地在各种平台上阅读,如电脑、平板电脑、智能手机等。使用epub格式的好处是,它可以根据设备的屏幕尺寸和用户的设置自动调整页面布局和字体大小,提供更好的阅读体验。 这本教程的目标是帮助读者从零开始学习Pandas,并逐步深入了解其功能和用法。它提供了丰富的示例代码和实践演练,以帮助读者掌握Pandas的各种技术和技巧。教程涵盖了Pandas的基本数据结构,如Series和DataFrame,以及它们的索引、切片、过滤、排序等操作。此外,还介绍了Pandas的数据清洗、处理缺失值、数据合并、分组聚合等高级技术。 这本教程的中文版本使更多母语为中文的读者能够更轻松地学习和理解Pandas的概念和功能。epub格式的电子书具有良好的可读性和易于导航的特点,读者可以根据自己的需求和节奏进行学习,随时随地获取所需的知识。 总之,pandas-official-tut-zh epub是一本Pandas官方教程的中文电子书,提供了全面且易于理解的Pandas学习资源,可帮助读者入门并熟练使用该库。无论是初学者还是有经验的数据科学家,都可以从中受益,并将其应用于实际的数据分析项目中。 ### 回答2: pandas-official-tut-zh epub是一本关于pandas库的官方指南的电子书。Pandas是一个强大的数据分析工具,它使用Python编程语言开发。这本电子书提供了从基础概念到高级用法的全面介绍,将帮助读者掌握该库的各种功能和技巧。 该电子书以易于理解和直观的方式解释了pandas库的核心概念,如数据结构、索引和选择、数据聚合和生成等。读者可以通过电子书学习如何使用pandas处理、清洗和分析各种类型的数据,包括结构化数据、时间序列数据和文本数据。 电子书的内容结构清晰,各章节之间有明确的连贯性,使读者可以系统地学习和理解pandas库的功能和用法。除了基本的数据操作,该电子书还介绍了一些高级特性,如数据合并、重塑和透视等,以及与其他Python工具库的集成。 pandas-official-tut-zh epub不仅提供了理论知识,还包含了丰富的实例代码和可运行的示例,读者可以通过这些实例更深入地理解和运用pandas库。此外,该电子书还提供了一些实际的案例研究,展示了pandas在真实世界中的应用。 总之,pandas-official-tut-zh epub是一本非常有价值的电子书,适合对数据处理和分析感兴趣的读者。无论是初学者还是有一定经验的开发者,都可以从该电子书中获得关于pandas库的全面指导和实用技巧。 ### 回答3: pandas-official-tut-zh epub是一个关于Python数据分析库Pandas的中文官方教程的电子书文件。Pandas是一个强大的数据处理和分析工具,可用于处理和操作大型数据集。 首先,这本电子书是官方教程,意味着内容是由Pandas的开发团队编写的,可以保证信息的准确性和可靠性。它提供了详细的指导和示例,帮助读者了解Pandas的基本功能和高级技术。 这本教程以epub格式提供,这意味着它可以在各种电子设备上进行阅读,如电脑、平板电脑和智能手机。由于epub格式具有自适应屏幕大小和排版的优势,因此读者可以在任何设备上获得良好的阅读体验。 该教程分为多个章节,从介绍Pandas的基本概念和数据结构开始,逐步深入讲解Pandas的应用和高级功能。它涵盖了数据清洗、转换、聚合、合并等方面的常见任务,以及时间序列和数据可视化等更高级的主题。 读者可以通过学习这本教程来掌握Pandas的核心概念和操作技巧,从而更有效地进行数据分析和处理。这对于数据科学家、数据分析师和Python开发者来说都是非常有价值的资源。 总而言之,pandas-official-tut-zh epub是一本官方编写的关于Python数据分析库Pandas的中文教程电子书,为读者提供了全面而系统的学习资源,帮助他们掌握Pandas的各种功能和技术。无论是初学者还是有经验的用户都可以从中受益,并且它的epub格式使得阅读更加方便和灵活。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

凯旋.Lau

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值