博文所需文件:https://download.csdn.net/download/fjqlldg/12251455
Pandas是基于NumPy的一种数据分析工具,在数据分析与挖掘中,我们首先需要对数据进行清洗和编辑等工作,pandas库大大简化了我们的工作量,熟练并掌握pandas常规用法是正确构建数据分析与挖掘的第一步
Pandas中除了Panel数据结构,还有两种数据结构:Series和DataFrame,这两种数据结构也是建立在NumPy基础上。
Series:序列,与NumPy中的一维数组相类似,与Python数据结构list也很相近。
DataFrame:二维的表格型数据结构。
Panel:三维数组。
一、序列(Series)
1、语法:Series([数据1,数据2,…],index=[索引1,索引2,…])
2、生成序列:
⑴、空序列
⑵、列表生成序列
⑶、数组构建序列
⑷、字典构建序列
3、序列切片
二、数据框(DataFrame)
1、用法:DataFrame(columnsMap)
2、数据框生成
⑴、空数据框
⑵、列表创建数据框
①、默认索引为0开始。
②、自定义索引
③、自定义索引及列名
⑶、根据字典创建数据框
3、数据框的操作
⑴、增加数据框列
⑵、删除数据框列
⑶、数据框排序:按学号降序排序
三、数据读取(所需样本数据见网页)
1、读取Excel格式数据
2、读取csv格式数据
命令格式:read_csv(file,names=[列名1,列名2,...],sep=”,”)
四、数据框的操作
1、显示数据信息
2、显示前5行,后5行
3、查看数据框列名
4、数据框维度
⑴、显示数据框的行数和列数
⑵、显示数据框行数
⑶、显示数据框列数
5、数据选取
⑴、从数据框抽取某列
⑵、选取多列
⑶、df.iloc[i,j]:表示数据框的第i行,第j列数据。
6、抽取数据
⑴、抽取第4行(第一行是从0开始)
⑵、抽取3至6行
⑶、抽取0到3行且“学号”和“姓名”列数据
⑷、抽取0至2行和1至5列数据
(5)、条件选取:选取性别为“男”且专业为“计算机”的同学信息