一、认识Pandas数据分析库
Pandas是一个功能强大的数据分析库,它提供了丰富的数据结构和函数来处理和分析表格数据。在处理类似您提供的Excel文件时,首先需要导入Pandas库并读取数据,然后进行数据清洗和预处理,最后进行数据分析和可视化。
二、DataFrame基本操作
是一个二维结构,除了拥有index和value之外,还拥有column
dataframe由多个series组成,无论是行还是列,单独拆分出来都是一个series
三、时间序列和Resample函数
resample函数只能操作日期时间序列值
1、均值
print(data.resample(rule='YE').mean())
2、计数
print(data.resample(rule='YE').count())
3、求和
print(data.resample(rule='YE').sum())
4、求标准差
print(data.resample(rule='YE').std())
5、求最大值
print(data.resample(rule='YE').std().max())
6、累乘
print(data.resample(rule='YE').prod())
四、plot快速可视化
plot函数是pandas中用于数据可视化的一个重要工具,
通过plot函数,可以轻松地将DataFrame或Series对象中的数据以图形的形式展示出来。
plot函数支持多种类型的图形,包括折线图、柱状图、散点图、饼图等,这些不同类型的图形适用于不同的数据分析场景。
此外,plot函数还支持通过参数设置来调整图形的样式,如颜色、标签、图例等,以满足更加个性化的可视化需求。
plot函数的参数名称和含义了matplotlib绘图时的参数是类似的,
如果熟悉matplotlib绘图的话,上手更快。
五、io读取与存储:csv、excel
1、csv
# 写入数据
data.to_csv('txt.csv')
# 读取数据
data1 = pd.read_csv('txt.csv')
默认情况是对原数据进行覆盖,通过参数设置进行追加
data2 = data.tail()
data2.to_csv('txt.csv',mode='a',header=False)
print(data2)
2、Excel
data.to_excel('excel.xlsx',sheet_name='a')
# 一次写入多个sheet页
with pd.ExcelWriter('writerExcel.xlsx') as writer:
data.to_excel(writer, sheet_name='a')
data.to_excel(writer, sheet_name='b')
data.to_excel(writer, sheet_name='c')
# 追加新的sheet
with pd.ExcelWriter('writerExcel.xlsx',mode='a',engine='openpyxl') as writer:
data.to_excel(writer, sheet_name='d')