数据类型
pandas中最基本的数据类型是DataFrame,二维的表格
其中每一列的数据类型是Series,列表
import pandas as pd
df = pd.DataFrame({'name':['Kang','Xi','Pei'],'age':[18,22,23]})
#可以将字典类型的数据作为参数创建DataFrame
sr = df['name']
#通过每列的label来得到每列的数据series
sr1 = pd.Series([18,22,23],name='age')
#创建series,name即设定标签
显示相关信息
#有许多的方法
df.head()#默认显示前四行数据
df.head(15)#显示前15行数据
df.tail(3)#显示倒数3行数据
df['age'].max()
df['age'].describe() #返回算数信息,数量,均值等
df.dtypes#返回每一列的数据类型
df.info()#返回程序数据结构信息
df.shape()#返回维数
读取、存储
#可以读取非常多格式的文件
pd.read_excel('file\data.xslx',sheet_name='person_info')
pd.to_excel('file\data1.xslx',sheet_name='personInfoNew',index=False) #store as a file.xslx
#index指是否存入0123这样的索引列表
切片、判断
df1 = df[['age','name']]
df2 = df[df['age']>20]
#方括号里面的表达是条件表达语句,是bool值类型的series类型
df['age'].isin([18,65])#获取年龄在18到65之间的项目的条件语句
df['name'].notna() #返回name为非null的项
df.loc[df['age']>35,'name'] #loc为组合操作,
df.iloc[9:25,2:5] #第9-24行和第2-4列的数据