python:pandas(3),汇总和计算描述统计

这篇博客介绍了如何使用pandas在Python中进行数据汇总和计算描述统计。内容包括DataFrame的sum方法、相关系数与协方差的计算、唯一值、值计数以及成员资格的检查。涉及到的方法如sum、describe、corr、cov、unique、value_counts和isin等,为数据分析提供了实用工具。
摘要由CSDN通过智能技术生成

利用python进行数据分析

第五章:pandas入门

第三节,汇总和计算描述统计

DataFrame当中的一些数学和统计方法
>>> df=DataFrame([[1.4, np.nan],[7.1, -4.5],[np.nan, np.nan], [0.75, -1.3]], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
>>> df
····one two
a 1.40 NaN
b 7.10 -4.5
c NaN NaN
d 0.75 -1.3
调用DataFrame的sum方法将会返回一个含有列小计的Series,得到的结果是每一列的数字加和,NA值会自动被排除
>>> df.sum()
one 9.25 #columns 1
two -5.80 #columns 2
dtype: float64
如果加入axis=1这个参数将会对行进行求和运算,NA值会自动被排除
>>> df.sum(axis=1)
a 1.40
b 2.60
c NaN
d -0.55
dtype: float64
NA值会自动被排除,除非整个切片(这里指行或者列)都是NA,通过skipna选项可以禁用该功能
>>> df.mean(axis=1, skipna=False)
a NaN
b 1.300
c NaN
d -0.275
dtype: float64
计算结果是如果进行的是行加和计算,如果该有NaN值则结果用NaN值的最终结果表示,如果该有NaN值则结果用NaN值的最终结果表示
表5-9:约简方法的选项
| 选项 | 说明 |
| axis | 约简的轴。DataFrame的行用0,列用1 |
| skipna | 排除缺失值,默认值为True |
| level | 如果轴是层次化索引的(即MultiIndex),则根据level分组约简 |
idxmin和idxmax表示间接统计(得到的是最小值或最大值的索引)
>>> df
····one two
a 1.40 NaN
b 7.10 -4.5
c NaN NaN
d 0.75 -1.3
>>> df.idxmax() #输出最大值的索引
one b
two d
dtype: object
>>> df.cumsum() #输出每一列的按照行进行累加和结果
····one two
a 1.40 NaN<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值