概要:提取数据的基本特征
单元7:pandas库入门
更多参考:http://pandas.pydata.org/
Pandas是Python第三方库,提供高性能易用数据类型和分析工具,Pandas基于NumPy实现,常与NumPy和Matplotlib一同使用。
常用引用方法:
import pandas as pd
7.1对pandas库的理解
与numpy的区别
该库基于numpy提供了两个新的数据类型:Series, DataFrame
基于上述数据类型有各类操作:基本操作、运算操作、特征类操作、关联类操作
7.2 Series类型(一维)
Series类型由一组数据及与之相关的数据索引组成
实例1:
实例2:
Series类型可以由如下类型创建:
• Python列表,index与列表元素个数一致
• 标量值,index表达Series类型的尺寸
• Python字典,键值对中的“键”是索引,index从字典中进行选择操作
• ndarray,索引和数据都可以通过ndarray类型创建
• 其他函数,range()函数等
实例:
如何理解该类型
Series是一维带“标签”数组(Series类型包括index和values两部分)
index_0 —–> data_a**(索引 与 值 一一对应)**
Series基本操作类似ndarray和字典,根据索引对齐进行运算(而不是像numpy一般基于维度进行运算)
Series类型的基本操作
- 使用 .index 获取索引,使用 .value 获取数据
2.自动索引 与 自定义索引并存(但不能混合使用)