三、汇总和计算描述统计
pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计。
df = DataFrame([1.4, np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=list('abcd'),columns=['one','two'])
df
df.sum() # 忽略NA值 # 把行变成一个
df.sum(axis=1) # 把列变成一个
df.mean(axis=1, skipna=False)
df.cumsum() # 累计型
df.describe() # 既不是约简型也不是累计型,一次产生多个汇总统计
部分描述和汇总统计的方法如下图。
1. 相关系数和协方差
有些汇总统计(如相关系数和协方差)是通过参数对计算出来的。参见书中P146
2. 唯一值,值计数以及成员资格
obj = Series(['c','a','d','a','a','b','b','c','c'])
uniques = obj.unique() # 返回Series中的唯一值数组 未排序
uniques
obj.value_counts() # 计算一个Series中各值出现的频率
pd.value_counts(obj.values, sort=False) # 也是pandas的一个顶级方法
mask = obj.isin(['b','c']) # 判断矢量化集合的成员资格
mask
obj[mask]
四、处理缺失数据
缺失数据在大部分数据分析应用中都很常见。pandas的设计目标之一就是让缺失数据的处理任务尽量轻松。pandas使用浮点值NaN(Not a Number)表示缺失数据,它只是一个便于被检测出来的标记而已。
string_data = Series(['aaa','bbb',np.nan,'ddd'])
string_data
string_data.isnull()
string_data[0] = None # Python内置的None值也会被当做NA处理
string_data.isnull()
1. 滤除缺失数据
过滤掉缺失数据的方法有很多种,纯手工操作永远都是一个办法,但dropna()可能会更使用一些。
from numpy import nan as NA
data = Series([1,NA,3.5,NA,7])
data.dropna()
data[data.notnull()]
# 对于DataFrame就会有一些复杂,可能对齐全NA或含有NA的行或列。dropna()默认丢弃任何含有缺失值的行
data = DatFrame([1,2,3],[4,NA,NA], [NA,NA,NA],[NA,6.5,3]])
cleaned = data.dropna()
data
cleaned
data.dropna(how='all') # 传入关键字参数将只丢弃全为NA的那些行
data[4] = NA # 添加一个值全为NA的列
data
data.dropna(axis=1, how='all')
2. 填充缺失数据
你可能不想滤除掉缺失数据,而是通过其他方法填补那些空洞。
data = DatFrame([1,2,3],[4,NA,NA], [NA,NA,NA],[NA,6.5,3]])
data.fillna(0)
data.fillna({1:1, 2:2}) # 传入一个字典,实现不同的列填充不同的值 # 默认返回新对象
data.fillna(0, inplace=True) # 关键字参数inplace设置就地修改
# 对reindex有效的那些插值法也可用于fillna
df = DataFrame(np.random.randn(6,3))
df.ix[2:, 1] = NA
df.ix[4:, 2] = NA
df.fillna(method='ffill')
df.fillna(method='ffill', limit=2)
data = Series([1.,NA,3.5,NA,7])
data.fillna(data.mean()) # 传入平均值
五、层次化索引
层次化索引(hierarchical indexing)是pandas的一项重要功能,它是你能在一个轴上拥有多个索引级别。
先占个坑,之后再填。