长期积累pandas的使用方法。
生成
- 二维ndarray 一个数据矩阵,有可选的行标和列标
- 数组,列表或元组的字典 每一个序列成为DataFrame中的一列。所有的序列必须有相同的长度。
- NumPy的结构/记录数组 和“数组字典”一样处理
- Series的字典 每一个值成为一列。如果没有明显的传递索引,将结合每一- 个Series的索引来形成结果的行索引。
- 字典的字典 每一个内部的字典成为一列。和“Series的字典”一样,结合键值来形成行索引。
- 字典或Series的列表 每一项成为DataFrame中的一列。结合字典键或Series索引形成DataFrame的列标。
- 列表或元组的列表 和“二维ndarray”一样处理
- 另一个DataFrame DataFrame的索引将被使用,除非传递另外一个
- NumPy伪装数组(MaskedArray) 除了蒙蔽值在DataFrame中成为NA/丢失数据之外,其它的和“二维ndarray”一样
索引
- Index 最通用的索引对象,使用Python对象的NumPy数组来表示坐标轴标签。
- Int64 Index 对整形值的特化索引。
- MultiIndex “分层”索引对象,表示单个轴的多层次的索引。可以被认为是类似的元组的数组。
- DatetimeIndex 存储纳秒时间戳(使用NumPy的datetime64 dtyppe来表示)。
- PeriodIndex 对周期数据(时间间隔的)的特化索引。
索引方法和属性
- append 链接额外的索引对象,产生一个新的索引
- diff 计算索引的差集
- intersection 计算交集
- union 计算并集
- isin 计算出一个布尔数组表示每一个值是否包含在所传递的集合里
- delete 计算删除位置i的元素的索引
- drop 计算删除所传递的值后的索引
- insert 计算在位置i插入元素后的索引
- is_monotonic 返回True,如果每一个元素都比它前面的元素大或相等
- is_unique 返回True,如果索引没有重复的值
- unique 计算索引的唯一值数组