一、Pandas
Pandas是一种基于Numpy的开源数据分析工具包,提供了高性能、简单易用的数据结构和数据分析函数。
二、安装与检测
检测
pip show pandas
检测已安装:
检测出未安装:
pip install pandas
三、Series对象
1、定义与创建
Series对象是一种带有标签数据的一维数组,标签在Pandas中有对应的数据类型“Index”Series类似一维数与字典的结合。
(1)、导入第三方库
(2)、创建对象
①创建Series对象,默认标签index为0,1,2....也可以自己定义
PS:index参数指定索引
②将字符串转换为列表
③用字典创建Series对象
④Index对象常见操作
索引操作、切片操作、交集、并集、交集操作.......
2、数据访问
①用字典的形式keys()方法访问对象
②用键值对items()方法访问
③用位置索引访问数据
3、常用方法
①对Series对象排序:对对象标签排序
②对对象值排序,但不改变原对象排序
③对对象值排名
四、DataFrame对象
1、定义与创建
DataFrame可以看做是一种既有行索引,又有列索引的二维数组,类似于Exce表或关系型数据库中的二维表,是Pandas中最常见的基本结构。
PS:
print(对象):返回在客户端中,不会被覆盖
直接输出对象,事返回在内存中,会被覆盖
、
2、数据访问
①以列索引为关键字,获取某一列数据
PS:这里s_1没有输出因为被s_2覆盖。
②根据属性索引,无【】
③根据行列位置访问单个数据
④访问多列
⑤显式索引:按键名(列名)访问
⑥隐式索引:通过切片按序号访问
⑦根据表达式访问判断返回逻辑值
3、常见方法
①获取形状信息,结果为一个元组
②获取各字段的数据类型,结果为 Series
③获取数据内容,结果通常为二维数组
④获取列索引,即字段名称,结果为 Index
⑤行索引,即行的标签,结果为 Index
⑥同时获取行和列索引,结果为 Index列表
4、常见操作
1、使用Pandas读取两个表格数据,并将其根据姓名进行合并
set_index():设置索引列,可以用一个已有列名作为索引,返回新的对象。
skiprows:跳过多少行。
merge():指定相应列的名称进行关联。
join():通过索引将数据合并在一起。
2、实现按总分或语文、数学、英语单科成绩从高到低排序的功能
sort_values(by):根据值进行排序,可以指定一列或多列,返回新的对象。默认为由低到高(True),用ascending=False ,改为由高到低。
3、打印所有存在不及格科目(单科<60)的学生记录