1.常用的数据结构有:Series,DataFrame
Series的创建:
import pandas as pd
series1=pd.Series([1,2,3,4],index=['a','b','c','d'],name='practice')
Series的对象可以是列表、字典和数组,其中字典的键即为索引
Series常用属性有:values以数组形式呈现数值(pandas的建立是基于numpy)、index、dtypes、ndim
方法有append()用于拼接,drop()删除但不改变原序列,若想改变,需设置参数inplace=True
DataFrame可看作是由多个Series组成的,或理解为Series是DataFrame的一列。
DataFrame的创建:
pd.DataFrame(data,index,dtype,columns)data对象可以是列表、数组、字典,index为行索引,columns为列名或列标签
常用属性有:values、shape、dtypes、columns、ndim、size、index
to_list()方法可用列表形式查看
2.数据获取和保存
技巧:先修改运行路径,再读取文件
import os
os.getcwd() # 获取当前路径
os.chdir('文件存储路径') # 将Python运行路径改为文件存储路径
df=pd.read_csv('文件名.csv',encoding='gbk',dtype={'id':str},nrows=n,sep=',',na_values='暂无') # 当文件中存在大量中文时,encoding宜设置为gbk,nrows只读取前n行,默认以,分割,na_values设
# 置将“暂无”读取为缺失值
注:pandas默认将第一行作为表头
常用方法:head(n)查看前n行、tail(n)查看后n行、dtypes属性查看每一列的数据类型,其中object一般指字符串类型
读取excel文件,参数sheet_name用于指定读取的表
df=pd.read_excel('文件名.xlsx',encoding='utf-8',sheet_name='')
concat()用于拼接数据,ignore_index=True用于索引设置。
数据保存:
data.to_csv/to_excel(data.csv/xlsx,index=False) index表示不写入索引
3.数据筛选
查看前n行:df[:n]
查看某一列:df.column_name或df['column_name']
查看某一列前n行:df['column_name'][:n]
loc与iloc:
df.loc[A,B]其中A,B分别为行索引、列索引的名称
df.iloc[A,B]其中A,B分别为行、列的位置,即索引值
因而loc方法更加灵活
4.条件查询与增删改查
逻辑运算符:&与、|或、~非用于连接条件
注:条件与条件之间要有()
1)判断是否在某一区间内df[column].between(a,b,inclusive=True)inclusive=True表示包含a,b
2)判断a中是否包含b df['a']isin(['b'])或df['a'].str.contains('b')
删除a