pandas入门(三)

三、汇总和计算描述统计

pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计。

df = DataFrame([1.4, np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=list('abcd'),columns=['one','two'])
df
df.sum() # 忽略NA值 # 把行变成一个
df.sum(axis=1) # 把列变成一个
df.mean(axis=1, skipna=False)
df.cumsum() # 累计型
df.describe() # 既不是约简型也不是累计型,一次产生多个汇总统计

部分描述和汇总统计的方法如下图。
这里写图片描述

1. 相关系数和协方差

有些汇总统计(如相关系数和协方差)是通过参数对计算出来的。参见书中P146

2. 唯一值,值计数以及成员资格

obj = Series(['c','a','d','a','a','b','b','c','c'])
uniques = obj.unique() # 返回Series中的唯一值数组 未排序
uniques

obj.value_counts() # 计算一个Series中各值出现的频率
pd.value_counts(obj.values, sort=False) # 也是pandas的一个顶级方法

mask = obj.isin(['b','c']) # 判断矢量化集合的成员资格
mask
obj[mask]

四、处理缺失数据

缺失数据在大部分数据分析应用中都很常见。pandas的设计目标之一就是让缺失数据的处理任务尽量轻松。pandas使用浮点值NaN(Not a Number)表示缺失数据,它只是一个便于被检测出来的标记而已。

string_data = Series(['aaa','bbb',np.nan,'ddd'])
string_data
string_data.isnull()
string_data[0] = None # Python内置的None值也会被当做NA处理
string_data.isnull()

1. 滤除缺失数据

过滤掉缺失数据的方法有很多种,纯手工操作永远都是一个办法,但dropna()可能会更使用一些。

from numpy import nan as NA
data = Series([1,NA,3.5,NA,7])
data.dropna()
data[data.notnull()]

# 对于DataFrame就会有一些复杂,可能对齐全NA或含有NA的行或列。dropna()默认丢弃任何含有缺失值的行
data = DatFrame([1,2,3],[4,NA,NA], [NA,NA,NA],[NA,6.5,3]])
cleaned = data.dropna()
data
cleaned
data.dropna(how='all') # 传入关键字参数将只丢弃全为NA的那些行
data[4] = NA # 添加一个值全为NA的列
data
data.dropna(axis=1, how='all')

2. 填充缺失数据

你可能不想滤除掉缺失数据,而是通过其他方法填补那些空洞。

data = DatFrame([1,2,3],[4,NA,NA], [NA,NA,NA],[NA,6.5,3]])
data.fillna(0)
data.fillna({1:1, 2:2}) # 传入一个字典,实现不同的列填充不同的值 # 默认返回新对象
data.fillna(0, inplace=True) # 关键字参数inplace设置就地修改

# 对reindex有效的那些插值法也可用于fillna
df = DataFrame(np.random.randn(6,3))
df.ix[2:, 1] = NA
df.ix[4:, 2] = NA
df.fillna(method='ffill')
df.fillna(method='ffill', limit=2) 

data = Series([1.,NA,3.5,NA,7])
data.fillna(data.mean()) # 传入平均值

五、层次化索引

层次化索引(hierarchical indexing)是pandas的一项重要功能,它是你能在一个轴上拥有多个索引级别。

先占个坑,之后再填。

六、其他有关pandas的话题

1. 整数索引

2. 面板数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值