Pandas学习第一节课(2022年1月24日星期一)
- 基本认识
Pandas更像是字典,通过对index的处理,进而进行对数据的处理。Numpy是对矩阵的处理,类似与matlab里面的操作。
- Pandas的Series类型
1、Series类型由一组数据以及相关的数据索引组成
2、Series的创建
从标量值创建:
从字典类型创建:
从ndarray类型创建:
3、基本操作
(1).index获得索引,.values获得数据
例:
(2)、取值/切片/比较大小/计算:b[‘b’]或者b[1],自动索引和自定义索引并存,但不能混用。
例:
(3)、in的操作/.get()的方法/对齐操作
(4)、name属性
- Pandas的DataFrame类型
- DataFrame类型
- DataFrame的创建
(1)、从二维ndarray对象创建:
(2)、从一维ndarry对象字典创建:
(数据根据行列索引自动补齐)
(3)、从列表类型的字典创建
(4)、命令(DataFrame基本操作类似Series,依据行列索引)
.index/.columns/.values/.ix[‘’]
- Pandas库的数据类型操作
1、.reindex()能够改变或者重排索引
例:
(Series和DataFrame的索引都是Index类型,是不可修改的类型)
例:
2、.drop()能够删除Series和DataFrame指定行或者列索引
例:
对DataFrame操作时,注意区分0轴1轴的不同之处。
- Pandas库的数据类型运算
- 算术运算根据行列索引,补齐后运算,运算时默认产生浮点数,补齐时缺项填充NaN(空值)。
例:
例:
(fill_value参数替代NAN,替代后参与运算)
- 二维和一维、一维和零维之间为广播运算。一维Series默认在轴1参与运算
增加参数:axis=0可以使其参加0轴运算
- 比较运算法则
比较运算只能比较相同索引的元素,不进行补齐。二维和一维、一维和零维之间为广播运算。采用><>=<= == !=等符号进行的二元运算产生布尔对象。
(同维度,尺寸必须一致,不然会报错)
例: