pandas的数据读取和生成

最新推荐文章于 2024-04-14 15:42:25 发布

lxl_957494645

最新推荐文章于 2024-04-14 15:42:25 发布

阅读量383

点赞数 6

分类专栏： Padas 文章标签：机器学习 pandas python

本文链接：https://blog.csdn.net/lxl_957494645/article/details/136872376

版权

Padas 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.pandas对csv和excel数据的导入

1.1数据的导入

1.2 用pandas创建一个DataFrame数据表

1.pandas对csv和excel数据的导入

1.1数据的导入

import pandas as pd
filename = 'data_name' #data_name表示数据的名称
df = pd.DataFrame(pd.read_csv(filename,header=1)) #文件后缀为.csv
df = pd.DataFrame(pd.read_excel('filename')) #文件后缀为.xlsx

1.2 用pandas创建一个DataFrame数据表

（1）指定列名称，行名默认从0开始

df = pd.DataFrame(
    {"姓名":["张三","李四","王五","李华","小明"], 
     "年龄":[18,20,19,21,22],
     "性别":['男 ', '男', ' 女 ', '女', '男'],
     "城市":['北京','上海','西安','成都','南京'],
     "职业":['教师','医生','学生','工人','程序员'],
     "爱好":['唱歌','跑步','玩游戏','打篮球','玩游戏']})

运行结果：

（2）通过columns指定列名称

df = pd.DataFrame(
    {"name":["张三","李四","王五","李华","小明"], 
     "age":[18,20,19,21,22],
     "gender":['男 ', '男', ' 女 ', '女', '男'],
     "city":['北京','上海','西安','成都','南京'],
     "profession":['教师','医生','学生','工人','程序员'],
     "hobby":['唱歌','跑步','玩游戏','打篮球','玩游戏']},
      columns =['name','age','gender','city','profession','hobby'])

运行结果：

（3）通过index指定行名称

df = pd.DataFrame(
    {"name":["张三","李四","王五","李华","小明"], 
     "age":[18,20,19,21,22],
     "gender":['男 ', '男', ' 女 ', '女', '男'],
     "city":['北京','上海','西安','成都','南京'],
     "profession":['教师','医生','学生','工人','程序员'],
     "hobby":['唱歌','跑步','玩游戏','打篮球','玩游戏']},
      columns =['name','age','gender','city','profession','hobby'],
      index= ['one','two','three','four','five'])

运行结果：

1.3 数据表的操作和引用

（1) 行列数大小

df.shape  #行列数大小值
df.shape[0]  #行数
df.shape[1]  #列数

(2) 空值信息

df.isnull()  #df的空值情况
df['name'].isnull()  #name列的空值情况
df[['name','hobby']].isnull()   #name和hobby列的空值情况

运行结果：

（3）唯一值信息

df['name'].unique()  #name列的唯一值情况

（4）查看数据表的值

df.values  #df的数据情况
df['name'].values  #name列的数据情况
df[['name','hobby']].values   #name和hobby列的数据情况

运行结果：

（5）查看行和列名称

df.columns  #列名称
df.index  #行名称

（6）查看表头、表尾

df.head() 
df.tail()

(7) 查看数据表的信息

df.info()

运行结果：

2. 数据的提取

主要通过loc和iloc函数完成，loc函数按行和列的标签值进行提取，iloc按行和列的位置进行提取

2.1 loc函数

df.loc['one'] #指定名称

df.loc['two':] #指定名称的片段数据

df.loc[['one','five']] #提取多个名称的数据

df.loc[['one','five'],'age'] #指定某行和列名称的数据

df.loc[['one','five'],'age':]

df.loc[['one','five'],['name','age','hobby']]

2.1 iloc函数

df.iloc[1]

df.iloc[[1,3]]

df.iloc[2:]

df.iloc[:,2]

df.iloc[:,[2,4]]

df.iloc[1,2:]

df.iloc[:,2:]

df.iloc[2:4,2:]

3.csv和excel格式的数据保存

#filename为文件名称，names代表表中每个sheet名称
df.to_excel('filename.xlsx', sheet_name='names')  
df.to_csv('filename.csv')

4.总结

该博客主要通过对数据的导入，查看，提取和保存操作做了详细的分析

lxl_957494645

关注

6
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
pandas的数据读取和生成

pandas对csv和excel表格的读取和操作，详细分析了操作步骤，适合新手小白学习
复制链接

扫一扫

专栏目录

pandas的数据读取和生成

1.pandas对csv和excel数据的导入

1.1数据的导入

1.2 用pandas创建一个DataFrame数据表

（1）指定列名称，行名默认从0开始

（2）通过columns指定列名称

（3）通过index指定行名称

1.3 数据表的操作和引用

（1) 行列数大小

(2) 空值信息

（3） 唯一值信息

（4）查看数据表的值

（5）查看行和列名称

（6）查看表头、表尾

(7) 查看数据表的信息

2. 数据的提取

2.1 loc函数

2.1 iloc函数

3.csv和excel格式的数据保存

4.总结

（3）唯一值信息