目录
一、pandas简介
- 为什么学习pandas:numpy已经可以帮助我们进行数据的处理了,那么学习pandas的目的是什么呢?
- numpy能够帮助我们处理的是数值型的数据,当然在数据分析中除了数值型的数据还有好多其他类型的数据(字符串,时间序列),那么pandas就可以帮我们很好的处理除了数值型的其他数据
- pandas中常用的两个类
- Series
- DataFrame
二、Series
1 - Series简介
- 什么是Series:Series是一种类似与一维数组的对象,由下面两个部分组成
- values:一组数据(ndarray类型)
- index:相关的数据索引标签
2 - Series创建
- Series的两种创建方式
- 由列表或numpy数组创建
- 由字典创建
3 - Series的索引和切片
4 - Series常用属性
- Series常用属性
- shape:形状
- size:元素个数
- index:返回索引
- values:返回值
- dtype:元素的类型
5 - Series常用方法
- 常用方法
- head(),tail()
- unique()
- isnull(),notnull()
- add() sub() mul() div()
三、DataFrame
1 - Dataframe简介
- 什么是DataFrame:DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引
- DataFrame结构:可以形象的理解为数据库中的表
- 行索引:index
- 列索引:columns
- 值:values
2 - DataFrame创建
- DataFrame的两种创建方式
- ndarray创建
- 字典创建
3 - DataFrame的属性
- DataFrame常用属性:values、columns、index、shape
- 练习:根据以下考试成绩表,创建一个DataFrame,命名为df
张三 李四
语文 150 0
数学 150 0
英语 150 0
理综 300 0
4 - DataFrame索引
- 取单列、取多列
- 取单行、取多行
- loc和iloc的区别:参考资料
- iloc:通过隐式索引取行
- loc:通过显式索引取行
- 取单个元素、取多个元素
5 - DataFrame切片
-
对行、列进行切片
-
练习:索引切片:
- ①.假设ddd是期中考试成绩,ddd2是期末考试成绩,请自由创建ddd2,并将其与ddd相加,求期中期末平均值
- ②.假设张三期中考试数学被发现作弊,要记为0分,如何实现?
- ③.李四因为举报张三作弊立功,期中考试所有科目加100分,如何实现?
- ④.后来老师发现有一道题出错了,为了安抚学生情绪,给每位学生每个科目都加10分,如何实现?
DataFrame的运算规则同Series
6 - 时间数据类型的转换
- pd.to_datetime(col)
7 - 将某一列设置为行索引
- df.set_index()