Series
Series可以看成是一个定长的有序字典。
Series对象本身及其索引都有一个name属性。
索引可以通过赋值的方式进行修改。
DataFrame
DataFrame可以看成是由Series组成的字典(共用同一个索引)。
其实,DataFrame中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。
DataFrame也可以设置index和columns的name属性。
重新索引
reindex方法可以对Series和DataFrame进行重排,传入一个新索引,若新索引在当前索引中找不到,就用NA(NaN)值填充,也可以设置fill_value参数用特定的值填充。
传入columns关键字即可重新索引列。
索引、选取和过滤
几个特殊用法:
- 通过布尔型数组选取行
(我把它记忆为:选取满足某个列的特定条件的行。)
算术运算和数据对齐
相同索引会自动对齐并进行算术运算,找不到相同索引的显示NaN。
函数应用和映射
Numpy的元素级数组方法也可以用于操作pandas对象。
apply的用法:
除了标量值外,传给apply的函数还可以返回由多个值组成的Series。
apply的应用很多,在以后的实践中要多尝试用apply来解决问题。
Serie有一个应用于元素级函数的map方法。
排序和排名
唯一值、值计数以及成员资格
- 唯一值:unique的用法
- 值计数:value_counts的用法
计算一个Series中各值出现的频率。可用于任何数组和序列。
- isin:用于判断Series各值是否包含在传入的值序列中。
处理缺失数据
- pandas中的缺失值用NaN(not a number)表示
- python内置的None值也被当做NA处理
过滤缺失数据
填充缺失数据