目录
1.pandas对csv和excel数据的导入
1.1数据的导入
import pandas as pd
filename = 'data_name' #data_name表示数据的名称
df = pd.DataFrame(pd.read_csv(filename,header=1)) #文件后缀为.csv
df = pd.DataFrame(pd.read_excel('filename')) #文件后缀为.xlsx
1.2 用pandas创建一个DataFrame数据表
(1)指定列名称,行名默认从0开始
df = pd.DataFrame(
{"姓名":["张三","李四","王五","李华","小明"],
"年龄":[18,20,19,21,22],
"性别":['男 ', '男', ' 女 ', '女', '男'],
"城市":['北京','上海','西安','成都','南京'],
"职业":['教师','医生','学生','工人','程序员'],
"爱好":['唱歌','跑步','玩游戏','打篮球','玩游戏']})
运行结果:
(2)通过columns指定列名称
df = pd.DataFrame(
{"name":["张三","李四","王五","李华","小明"],
"age":[18,20,19,21,22],
"gender":['男 ', '男', ' 女 ', '女', '男'],
"city":['北京','上海','西安','成都','南京'],
"profession":['教师','医生','学生','工人','程序员'],
"hobby":['唱歌','跑步','玩游戏','打篮球','玩游戏']},
columns =['name','age','gender','city','profession','hobby'])
运行结果:
(3)通过index指定行名称
df = pd.DataFrame(
{"name":["张三","李四","王五","李华","小明"],
"age":[18,20,19,21,22],
"gender":['男 ', '男', ' 女 ', '女', '男'],
"city":['北京','上海','西安','成都','南京'],
"profession":['教师','医生','学生','工人','程序员'],
"hobby":['唱歌','跑步','玩游戏','打篮球','玩游戏']},
columns =['name','age','gender','city','profession','hobby'],
index= ['one','two','three','four','five'])
运行结果:
1.3 数据表的操作和引用
(1) 行列数大小
df.shape #行列数大小值
df.shape[0] #行数
df.shape[1] #列数
(2) 空值信息
df.isnull() #df的空值情况
df['name'].isnull() #name列的空值情况
df[['name','hobby']].isnull() #name和hobby列的空值情况
运行结果:
(3) 唯一值信息
df['name'].unique() #name列的唯一值情况
(4)查看数据表的值
df.values #df的数据情况
df['name'].values #name列的数据情况
df[['name','hobby']].values #name和hobby列的数据情况
运行结果:
(5)查看行和列名称
df.columns #列名称
df.index #行名称
(6)查看表头、表尾
df.head()
df.tail()
(7) 查看数据表的信息
df.info()
运行结果:
2. 数据的提取
主要通过loc和iloc函数完成,loc函数按行和列的标签值进行提取,iloc按行和列的位置进行提取
2.1 loc函数
df.loc['one'] #指定名称
df.loc['two':] #指定名称的片段数据
df.loc[['one','five']] #提取多个名称的数据
df.loc[['one','five'],'age'] #指定某行和列名称的数据
df.loc[['one','five'],'age':]
df.loc[['one','five'],['name','age','hobby']]
2.1 iloc函数
df.iloc[1]
df.iloc[[1,3]]
df.iloc[2:]
df.iloc[:,2]
df.iloc[:,[2,4]]
df.iloc[1,2:]
df.iloc[:,2:]
df.iloc[2:4,2:]
3.csv和excel格式的数据保存
#filename为文件名称,names代表表中每个sheet名称
df.to_excel('filename.xlsx', sheet_name='names')
df.to_csv('filename.csv')
4.总结
该博客主要通过对数据的导入,查看,提取和保存操作做了详细的分析