pandas的数据读取和生成

目录

1.pandas对csv和excel数据的导入

1.1数据的导入

1.2 用pandas创建一个DataFrame数据表

(1)指定列名称,行名默认从0开始

(2)通过columns指定列名称

(3)通过index指定行名称

1.3 数据表的操作和引用

(1) 行列数大小

(2) 空值信息

(3) 唯一值信息

(4)查看数据表的值

(5)查看行和列名称

(6)查看表头、表尾

(7) 查看数据表的信息

2. 数据的提取

2.1 loc函数

2.1 iloc函数

3.csv和excel格式的数据保存

4.总结


1.pandas对csv和excel数据的导入

1.1数据的导入

import pandas as pd
filename = 'data_name' #data_name表示数据的名称
df = pd.DataFrame(pd.read_csv(filename,header=1)) #文件后缀为.csv
df = pd.DataFrame(pd.read_excel('filename')) #文件后缀为.xlsx

1.2 用pandas创建一个DataFrame数据表

(1)指定列名称,行名默认从0开始

df = pd.DataFrame(
    {"姓名":["张三","李四","王五","李华","小明"], 
     "年龄":[18,20,19,21,22],
     "性别":['男 ', '男', ' 女 ', '女', '男'],
     "城市":['北京','上海','西安','成都','南京'],
     "职业":['教师','医生','学生','工人','程序员'],
     "爱好":['唱歌','跑步','玩游戏','打篮球','玩游戏']})

运行结果:

(2)通过columns指定列名称

df = pd.DataFrame(
    {"name":["张三","李四","王五","李华","小明"], 
     "age":[18,20,19,21,22],
     "gender":['男 ', '男', ' 女 ', '女', '男'],
     "city":['北京','上海','西安','成都','南京'],
     "profession":['教师','医生','学生','工人','程序员'],
     "hobby":['唱歌','跑步','玩游戏','打篮球','玩游戏']},
      columns =['name','age','gender','city','profession','hobby'])

运行结果:

(3)通过index指定行名称

df = pd.DataFrame(
    {"name":["张三","李四","王五","李华","小明"], 
     "age":[18,20,19,21,22],
     "gender":['男 ', '男', ' 女 ', '女', '男'],
     "city":['北京','上海','西安','成都','南京'],
     "profession":['教师','医生','学生','工人','程序员'],
     "hobby":['唱歌','跑步','玩游戏','打篮球','玩游戏']},
      columns =['name','age','gender','city','profession','hobby'],
      index= ['one','two','three','four','five'])

运行结果:

1.3 数据表的操作和引用

(1) 行列数大小
df.shape  #行列数大小值
df.shape[0]  #行数
df.shape[1]  #列数

(2) 空值信息
df.isnull()  #df的空值情况
df['name'].isnull()  #name列的空值情况
df[['name','hobby']].isnull()   #name和hobby列的空值情况

运行结果:

(3) 唯一值信息
df['name'].unique()  #name列的唯一值情况

(4)查看数据表的值
df.values  #df的数据情况
df['name'].values  #name列的数据情况
df[['name','hobby']].values   #name和hobby列的数据情况

运行结果:

(5)查看行和列名称
df.columns  #列名称
df.index  #行名称

(6)查看表头、表尾
df.head() 
df.tail()    

(7) 查看数据表的信息
df.info()

运行结果:


2. 数据的提取

主要通过loc和iloc函数完成,loc函数按行和列的标签值进行提取,iloc按行和列的位置进行提取

2.1 loc函数

df.loc['one'] #指定名称

df.loc['two':] #指定名称的片段数据

df.loc[['one','five']] #提取多个名称的数据

df.loc[['one','five'],'age'] #指定某行和列名称的数据

df.loc[['one','five'],'age':]

df.loc[['one','five'],['name','age','hobby']]

2.1 iloc函数

df.iloc[1]

df.iloc[[1,3]]

df.iloc[2:]

df.iloc[:,2]

df.iloc[:,[2,4]]

df.iloc[1,2:]

df.iloc[:,2:]

df.iloc[2:4,2:]


3.csv和excel格式的数据保存

#filename为文件名称,names代表表中每个sheet名称
df.to_excel('filename.xlsx', sheet_name='names')  
df.to_csv('filename.csv') 

4.总结

      该博客主要通过对数据的导入,查看,提取和保存操作做了详细的分析

  • 6
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值