Pandas库的引用
Pandas:Python的第三方库,提供高性能易用数据类型和分析工具,有Series 、DataFrame 和Panel三种对象。
经常使用的包括Siries和DataFrame两种操作对象:
操作对象 | 介绍 |
---|---|
Siries | 索引+一维数据 |
DataFrame | 行列索引+二维数据 |
Siries是一维数据,其索引可以是用户自定义的字符或数字,也可以没有索引,默认使用从零开始的序号,这两套索引并存,但不能在依次调用中同时出现。
而DataFrame可以看成一个索引对应一个列表。
实例:引用Pandas库计算学生成绩
读取文件内容,即学生成绩信息,包括学号,姓名,平时成绩1、2、3,试题1~5的得分,求总成绩(=0.3平时总成绩+0.7试题总成绩).
import pandas as pd
import numpy as np
#读excel数据文件,得到的df为DataFrame格式
df = pd.read_excel(r"score.xlsx")
df
xh = df['学号']
x = list(xh)
xm = df['姓名']
m = list(xm)
ps = df['平时成绩1']+df['平时成绩2']+df['平时成绩3']
p = list(ps)
ks = df['试题1得分']+df['试题2得分']+df['试题3得分']+df['试题4得分']+df['试题5得分']
k = list(ks)
zc = ps*0.3+ks*0.7
z = list(zc)
d = pd.DataFrame({'学号':x, '姓名':m,'平时成绩':p,'考试成绩':k,'总成绩':z})
d
总结
如果想充分发挥Pandas的优势,就要把Series和DataFrame当成一个单一的变量看待,不能把他们想象得有多庞大,要充分利用第三方库提供的函数达到四两拨千斤的效果。
与Numpy的关系
Pandas是基于Numpy改进的,最主要的区别是在数据的应用当中,建立起了数据跟索引之间的关系,因此Pandas更加易用,性能更高。