(1)定义和创建
(2)数据访问
(3)常用方法
(4)常见操作
(1)定义和创建
DataFrame可以看作是一种既有行索引,又有列索引的二维数组,类似于Excel表或关系型数据库中的二维表,是Pandas中最常用的基本结构。
names = ['aa','dd','ee','oo','ff'] ages = [45,87,65,32,54] pd.Series(ages,names) data_2 = pd.DataFrame({'姓名':names,'年龄':ages}) data_2
结果为:
姓名 | 年龄 | |
---|---|---|
0 | aa | 45 |
1 | dd | 87 |
2 | ee | 65 |
3 | oo | 32 |
4 | ff | 54 |
(2)数据访问
data_2[['姓名','年龄']] #根据列名访问
姓名 | 年龄 | |
---|---|---|
0 | aa | 45 |
1 | dd | 87 |
2 | ee | 65 |
3 | oo | 32 |
4 | ff | 54 |
data_2.年龄 data_2.年龄>50 #根据属性表达式判断数据返回逻辑 data_2['年龄'][3] #根据列名和标签访问具体数据 data_2.loc[3,'姓名'] #根据列名显示索引访问 data_2.iloc[0:3,1:2] #根据序号隐式索引访问
年龄 | |
---|---|
0 | 45 |
1 | 87 |
2 | 65 |
(3)常用方法
(4)常见操作
(1)Pandas中的缺失值处理
(2)Pandas中的分组操作
(3)Pandas中的数据合并操作
#导入库 import pandas as pd import numpy as np import matplotlib.pyplot as plt #1.使用Pandas读取两个表格数据,并将其根据姓名进行合并 data_1 = pd.read_excel('../Stu_pack/pandas/exer_1.xlsx',skiprows = 1)#读取文件数据 data_2 = pd.read_excel('../Stu_pack/pandas/exer_2.xlsx',skiprows = 1) #print(data_1)#打印数据 #print(data_2) data_2 data_3 = pd.merge(data_1,data_2)#用merge()方法合并数据 data_3 #data_1.join(data_2.set_index('姓名'),on = '姓名') #用join()方法合并 #2.实现按总分或语文、数学、英语单科从高到低排序功能; def sort(df,col): ss = df.sort_values(by = col,ascending = False) #根据某一列的值降序(从高到低)排序 return ss col = input('请输入您要排序的列名:') sort(data_3,col) #调用排序函数
请输入您要排序的列名:
#3 data_2[(data_2['语文']<60)|(data_2['数学']<60)|(data_2['英语']<60)]#判断某一列有不及格的行数据 data_2[(data_2.语文<60)|(data_2.数学<60)|(data_2.英语<60)]#用属性索引判断