系列文章持续更新中…
文章目录
前言
pandas模块是基于NumPy模块基础开发的,它可以直观的展示数据的结构,还具备数据处理和分析能力。这篇我们进行pandas模块的入门。
这篇我们演示用到的两个text的excel文件:
text:
text2:
一、数据结构
pandas模块中有两个重要的数据结构对象:Series和DataFrame。
使用这两个对象可以在计算机中构建虚拟的数据库。
A.Series对象
Series对象类似于NumPy模块中创建一维数组的对象,但是Series对象还包括一组与数据元素对应的行标签。
eg:
import pandas as pd
s = pd.Series([‘红色’,‘蓝色’,‘绿色’,‘黄色’])
print(s)
运行结果:
0 红色
1 蓝色
2 绿色
3 黄色
dtype: object
若想自定义元素的行标签,可以使用参数index传入元素的行标签列表。
eg:
import pandas as pd
s = pd.Series([‘红色’,‘蓝色’,‘绿色’,‘黄色’],index=[‘a’,‘b’,‘c’,‘d’])
print(s)
运行结果:
a 红色
b 蓝色
c 绿色
d 黄色
dtype: object
Series对象还可以基于字典创建数据结构。
eg:
import pandas as pd
s = pd.Series({‘a’:‘红色’,‘b’:‘蓝色’,‘c’:‘绿色’,‘d’:‘黄色’})
#key为数据结构行标签,value为数据结构的元素
print(s)
运行结果:
a 红色
b 蓝色
c 绿色
d 黄色
dtype: object
B.DataFrame对象
DataFrame对象是一种二维的数据结构对象,类似于Excel表格。
数据结构中的元素既有行标签也有列标签。
eg:
import pandas as pd
df = pd.DataFrame([[‘红色’,‘red’],[‘蓝色’,‘blue’],[‘绿色’,‘green’],[‘黄色’,‘yellow’]])
print(df)
运行结果:
0 1
0 红色 red
1 蓝色 blue
2 绿色 green
3 黄色 yellow
同理,可以通过设置参数columns和参数index自定义行标签也有列标签。
eg:
import pandas as pd
df = pd.DataFrame([[‘红色’,‘red’],[‘蓝色’,‘blue’],[‘绿色’,‘green’],[‘黄色’,‘yellow’]],columns=[‘中文’,‘英文’],index=[‘1’,‘2’,‘3’,‘4’])
print(df)
运行结果:
中文 英文
1 红色 red
2 蓝色 blue
3 绿色 green
4 黄色 yellow
同理,DataFrame对象也可以基于字典创建数据结构。
eg:
import pandas as pd
df = pd.DataFrame({‘中文’:[‘红色’,‘蓝色’,‘绿色’,‘黄色’],‘英文’:[‘red’,‘blue’,‘green’,‘yellow’]},index=[‘1’,‘2’,‘3’,‘4’])
print(df)
运行结果:
中文 英文
1 红色 red
2 蓝色 blue
3 绿色 green
4 黄色 yellow
二、读取数据
A.读取Excel数据
基本语法:read_excel()
a.读取整个工作表
通过参数sheet_name即可指定读取的工作表。
**eg:**import pandas as pd
df = pd.read_excel(r’F:\text.xlsx’,sheet_name=0)
print(df)
运行结果:
序号 节目名称 系别 班级
0 1 双人舞《大鱼》 自动化工程系 19电控2
1 2 day by day 经济与管理系 19工程管理3
2 3 不柒 计算机工程系 20数媒1
3 4 interest 计算机工程系 19动漫3
4 5 屋顶着火 电子信息工程系 20人工智能3
5 6 solo 电子信息工程系 20信科1
6 7 get it out me 经济与管理系 20人力1
7 8 look 电