_折线图_

游点

已于 2023-12-15 22:50:01 修改

阅读量56

点赞数

分类专栏： Python数据可视化文章标签： python

于 2023-10-18 18:25:30 首次发布

本文链接：https://blog.csdn.net/2301_77113152/article/details/133911634

版权

2 篇文章 0 订阅

订阅专栏

1. 读入数据

import pandas as pd
df = pd.read_excel("orders2.xls")

按照某列数据进行排序

# 按order_date列数据升序
df = df.sort_values(by = ["order_date"]) 

# 按order_date列数据降序
df = df.sort_values(by = ["order_date"],ascending = False)

# 将order_date设置为索引
df = df.set_index("order_date")

Pandas中，数据主要保存为Dataframe和Series是数据结构，这两种数据结构数据选取的方式基本一致，本文主要以Dataframe为例进行介绍

在Dataframe中选取数据大抵包括3中情况：

这种情况一次只能选取行或列，即一次选取中，只能为行或者列设置筛选条件（只能为一个维度设置筛选条件）

# 获取2020年的数据
df = df["2020"]

# 获取2020年每天的"sales"数据
v2 = df["sales"]

这种方式可以同时为多个维度设置筛选条件

准确定位一个单元格

对时间序列数据进行重采样，可以完成日期的聚合工作（包括按小时维度，日期维度，月维度，季度及年的维度等等）

# 计算2020年每周的“sales”
v2 = (v2.resample("w").agg({'sum'}))/10000    # w：表示聚合方式是按周

向下采样和执行聚合：下采样是将一个时间序列数据集重新采样到一个更大的时间框架。例如，从几分钟到几小时，从几天到几年。结果的行数将减少，并且可以使用mean()、min()、max()、sum()等聚合值

要获得2020年每周的总销售额，只需使用resample()将DataFrame向下采样到每周的容器中，并将落入容器中的时间戳的值相加

在Pandas中可以利用agg()对Series、DataFrame以及groupby()后的结果进行聚合操作

关注

专栏目录