数据分析 pandas（二）

最新推荐文章于 2020-09-25 20:47:22 发布

behrends

最新推荐文章于 2020-09-25 20:47:22 发布

阅读量151

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/behrends/article/details/101294036

版权

6 篇文章 0 订阅

订阅专栏

转换与处理时间序列

对时间类型的数据分析的前提就是将原本为字符串的时间转换为标准时间

类名称	说明
Timestamp	表示某个时间点
period	表示单个时间跨度，某个时间段
Timedelta	不同的单位时间，而非具体的某个时间
Datetimeindex	一组timestamp构成的index，可以用来作为series或者dataframe的索引
periodtimeindex	一组period构成的index，可以用来作为series或者dataframe的索引
timedeltaindex	一组timedelta构成的index，可以用来作为series或者dataframe的索引

用to_datatime函数转换timestamp

还可以将数据单独提取出来将其转换为datatimeindex或者periodindex，转换periodindex需要通过freq参数指定时间间隔。

参数名称	说明
data	array
freq	string，表示时间间隔频率
start	接受string，表示时间数据的起始点
periods	需要生成的周期数目
end	string。表示生成时间规制的终结点
tz	timezone，数据的时区
name	ing,string 指定datetimeindex的名字

timedelta类不仅可以使用正数还可以使用负数，能够实现时间的算术运算。所以可以实现时间平移和相减

分组函数：df.groupby(by=none,axis=0,level=None,as_index=true,sort=true,group_key=true,squeeze=false)

参数名称	说明
by	接受list，string，mapping，generator。用于确认进行分组的依据
axis	int，操作的轴向
level	int或索引名，标签级别
as_index	bool值。聚合后的聚合标签是否以dataframe输出
sort	bool值。是否进行分组
squeeze	bool值。对返回数据进行降维

聚合：df.agg(func,axis=0)或者df.aggregate(func,axis=0)

可以使用agg方法一次求出当前数据的所有菜品的销量的售价总和和均值

detail[["counts",'amounts'].agg([np.sum,np.mean]))

如果要对字段分开操作，则使用字典方法

detail.agg({'counts’:np.sum,'amount':np.mean}))

pd.pivot_table(data,values=None,index=none,columns=none,aggfunc='mean',margins=false,dropna=true)

pd.crosstab(index,columns,values=None,rownames=none,colnames=none...)

交叉透视表的参数和透视表参数保持一致，index，columns，value填入的是dataframe中的某一列

关注

专栏目录