pandas库中resample的使用规范
代码如下(示例):
import pandas as pd
crime=pd.read_csv('D:/jupter notebook tmp/wenjian/wenjian/US_Crime_Rates_1960_2014.csv')
#按照Year(每十年)对数据框进行分组并求和
crime.set_index('Year')
crime.index=pd.to_datetime(crime.index)
#resample的数据必须是datetime-like index,而pandas的数据是DateFrame类型的,这个时候啊,
#该数据结构类似一种词典类型,给提供了index,values,columns等基本的属性。此时,只需要将数据的索引变成datetime类型的即可。
crimes= crime.resample('10AS').sum()#AS year start frequency 年启动频率
population = crime['Population'].resample('10AS').max() #人口是累计数,不能直接求和
crimes['Population'] =population
crimes
结果如下:
这是因为我们的index还是1,2,3,…只需要加入inplace=True即可
crime.set_index('Year',inplace=True)
得到结果