_折线图_

1. 读入数据

pd.read_excel()

import pandas as pd
df = pd.read_excel("orders2.xls")

sort_values()

按照某列数据进行排序

# 按order_date列数据升序
df = df.sort_values(by = ["order_date"]) 

# 按order_date列数据降序
df = df.sort_values(by = ["order_date"],ascending = False)

set_index()

# 将order_date设置为索引
df = df.set_index("order_date") 

2. 选取数据

    Pandas中,数据主要保存为Dataframe和Series是数据结构,这两种数据结构数据选取的方式基本一致,本文主要以Dataframe为例进行介绍

    在Dataframe中选取数据大抵包括3中情况:

2.1 行(列)选取(单维度选取):df[]

    这种情况一次只能选取行或列,即一次选取中,只能为行或者列设置筛选条件(只能为一个维度设置筛选条件)

# 获取2020年的数据
df = df["2020"]

# 获取2020年每天的"sales"数据
v2 = df["sales"]

2.2 区域选取(多维选取):df.loc[],df.iloc[]

    这种方式可以同时为多个维度设置筛选条件

2.3 单元格选取(点选取):df.at[],df.iat[]

    准确定位一个单元格

3. 处理数据

resample()

    对时间序列数据进行重采样,可以完成日期的聚合工作(包括按小时维度,日期维度,月维度,季度及年的维度等等)

# 计算2020年每周的“sales”
v2 = (v2.resample("w").agg({'sum'}))/10000    # w:表示聚合方式是按周

    向下采样和执行聚合:下采样是将一个时间序列数据集重新采样到一个更大的时间框架。例如,从几分钟到几小时,从几天到几年。结果的行数将减少,并且可以使用mean()、min()、max()、sum()等聚合值

    要获得2020年每周的总销售额,只需使用resample()将DataFrame向下采样到每周的容器中,并将落入容器中的时间戳的值相加

agg()

    在Pandas中可以利用agg()对Series、DataFrame以及groupby()后的结果进行聚合操作

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值