《利用Python进行数据分析》—第5章 pandas入门

Series

Series可以看成是一个定长的有序字典。
Series对象本身及其索引都有一个name属性。
在这里插入图片描述
索引可以通过赋值的方式进行修改。

DataFrame

DataFrame可以看成是由Series组成的字典(共用同一个索引)。
其实,DataFrame中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。
DataFrame也可以设置index和columns的name属性。
在这里插入图片描述

重新索引

reindex方法可以对Series和DataFrame进行重排,传入一个新索引,若新索引在当前索引中找不到,就用NA(NaN)值填充,也可以设置fill_value参数用特定的值填充。
在这里插入图片描述
传入columns关键字即可重新索引列。

索引、选取和过滤

在这里插入图片描述
几个特殊用法:

  1. 通过布尔型数组选取行
    (我把它记忆为:选取满足某个列的特定条件的行。)
    在这里插入图片描述
    在这里插入图片描述

算术运算和数据对齐

相同索引会自动对齐并进行算术运算,找不到相同索引的显示NaN。
在这里插入图片描述
在这里插入图片描述

函数应用和映射

Numpy的元素级数组方法也可以用于操作pandas对象。
在这里插入图片描述
apply的用法:
在这里插入图片描述
除了标量值外,传给apply的函数还可以返回由多个值组成的Series。
在这里插入图片描述apply的应用很多,在以后的实践中要多尝试用apply来解决问题。

Serie有一个应用于元素级函数的map方法。
在这里插入图片描述

排序和排名

在这里插入图片描述

唯一值、值计数以及成员资格

  1. 唯一值:unique的用法
    在这里插入图片描述
  2. 值计数:value_counts的用法
    计算一个Series中各值出现的频率。可用于任何数组和序列。
    在这里插入图片描述
  3. isin:用于判断Series各值是否包含在传入的值序列中。
    在这里插入图片描述

处理缺失数据

  • pandas中的缺失值用NaN(not a number)表示
  • python内置的None值也被当做NA处理
    在这里插入图片描述
    过滤缺失数据
    在这里插入图片描述
    填充缺失数据
    在这里插入图片描述
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值