本文是对《python数据分析》的关于pandas入门章节中汇总和计算描述统计的一个回顾性总结笔记,包括相关解释与代码案例。
目录
求均值df.mean()
df.mean
注意数据中缺失与否的处理。skipna=False。 这样遇到缺失值项时便会计算为NaN, 例子:
df=DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=['a','b','c','d'],columns=['one','two'])
df.mean(axis=1,skipna=False) # 不跳过含有缺失值的项。skipna=False。 这样遇到缺失值项时便会计算为NaN
输出
a NaN
b 1.300
c NaN
d -0.275
dtype: float64
其他相关参数
求各列最大值的索引值
df.idxmax,注意带了个x
例子
df.idxmax() # 计算能够获取到最大值的索引值,对应最小值为indxmin() 注意带了个x
输出
one b
two d
dtype: object
主要描述和汇总统计函数
相关系数与协方差
corr
Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数。DataFrame的corr和cov方法将以DataFrame的形式分别返回完整的相关系数。
corrwith
DataFrame的corrwith方法,你可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回一个相关系数值Series(针对各列进行计算):
returns.corrwith(returns.IBM)
Out[249]: # 输出returns这个DataFrame中各列与IBM例的相关系数
AAPL 0.386817
GOOG 0.405099
IBM 1.000000
MSFT 0.499764
dtype: float64
非重复值(唯一值)的求取
series.unique()
返回该列中去重的值的array数组
例子
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
print(obj.unique())
输出
['c' 'a' 'd' 'b']
值个数统计
series.value_counts()
返回该列中各个值出现的个数,结果默认按降序排列
例子
print(obj.value_counts())
输出
c 3
a 3
b 2
d 1
dtype: int64
包含指定的值的情况(成员资格)
isin返回是否包含的真值series,包含于则为True
例子
obj[obj.isin(['b','c'])] # obj中元素包含于['b','c']中的输出。注意此进行了值筛选了,选取为True的值
输出
0 c
5 b
6 b
7 c
8 c
dtype: object
参考与鸣谢:
《利用Python进行数据分析》