数据分析 pandas(二)

转换与处理时间序列

对时间类型的数据分析的前提就是将原本为字符串的时间转换为标准时间

类名称说明
Timestamp表示某个时间点
period表示单个时间跨度,某个时间段
Timedelta不同的单位时间,而非具体的某个时间
Datetimeindex一组timestamp构成的index,可以用来作为series或者dataframe的索引
periodtimeindex一组period构成的index,可以用来作为series或者dataframe的索引
timedeltaindex一组timedelta构成的index,可以用来作为series或者dataframe的索引

用to_datatime函数转换timestamp

还可以将数据单独提取出来将其转换为datatimeindex或者periodindex,转换periodindex需要通过freq参数指定时间间隔。

 参数名称说明
dataarray
freqstring,表示时间间隔频率
start接受string,表示时间数据的起始点
periods需要生成的周期数目
endstring。表示生成时间规制的终结点
tztimezone,数据的时区
nameing,string 指定datetimeindex的名字

timedelta类不仅可以使用正数还可以使用负数,能够实现时间的算术运算。所以可以实现时间平移和相减

使用分组聚类进行组内计算

分组函数:df.groupby(by=none,axis=0,level=None,as_index=true,sort=true,group_key=true,squeeze=false)

参数名称说明
by接受list,string,mapping,generator。用于确认进行分组的依据
axisint,操作的轴向
levelint或索引名,标签级别
as_indexbool值。聚合后的聚合标签是否以dataframe输出
sortbool值。是否进行分组
squeeze

bool值。对返回数据进行降维

聚合:df.agg(func,axis=0)或者df.aggregate(func,axis=0)

可以使用agg方法一次求出当前数据的所有菜品的销量的售价总和和均值

detail[["counts",'amounts'].agg([np.sum,np.mean]))

如果要对字段分开操作,则使用字典方法

detail.agg({'counts’:np.sum,'amount':np.mean}))

创建透视表

pd.pivot_table(data,values=None,index=none,columns=none,aggfunc='mean',margins=false,dropna=true)

参数名称说明
datadataframe,创建表的数据
value字符串,想要聚合的字段名
indexint或string,行分组键
columnsstring或list,列分组键
aggfuncfunction。聚合函数
dropnabool,删除所有nan的值

创建交叉表

pd.crosstab(index,columns,values=None,rownames=none,colnames=none...)

交叉透视表的参数和透视表参数保持一致,index,columns,value填入的是dataframe中的某一列

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值