pandas汇总和计算描述统计

pandas 对象拥有一组常用的数学和统计方法。 他们大部分都属于简约和汇总统计, 用于从Series中提取单个值(如sum或mean)

或从DataFrame的行或列中提取一个Series。跟对应的Numpy数组方法对比, 他们都是基于没有缺失数据的假设而构建的。

看例子:

 

sum方法

调用DataFrame的sum方法将会返回一个含有列小计的Series:

 

 行求和

传入axis=1 将会按行进行求和运算:

 

自动排除NA值

 除非整个切片(这里指的是行或列)都是NA。通过skipna选项可以禁用该功能:

 

 

 

 

 

间接统计(比如累加, 最大id等)

 

 

 一次性产生多个汇总统计:describe

 

 

方法

 

 

 

d1.count() #非空元素计算
d1.min() #最小值
d1.max() #最大值
d1.idxmin() #最小值的位置,类似于R中的which.min函数
d1.idxmax() #最大值的位置,类似于R中的which.max函数
d1.quantile(0.1) #10%分位数
d1.sum() #求和
d1.mean() #均值
d1.median() #中位数
d1.mode() #众数
d1.var() #方差
d1.std() #标准差
d1.mad() #平均绝对偏差
d1.skew() #偏度
d1.kurt() #峰度
d1.describe() #一次性输出多个描述性统计指标

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python的数据分析库Pandas中,描述性统计是一种用于理解数据集基本特征的方法。它主要包括以下几种核心概念: 1. **基本统计量**:Pandas提供了一系列函数,如`count()`计算非空值的数量,`mean()`计算平均值,`median()`求中位数,`min()`和`max()`找出最小值和最大值,`std()`和`var()`计算标准差和方差,这些帮助我们了解数值型数据的分布情况。 2. **频率分部(Histograms)**:`value_counts()`用于查看类别变量的频数,而`hist()`或`plot.hist()`可用于创建直方图,展示数值变量的分布情况。 3. **描述性统计汇总**:`describe()`函数提供了大量的统计信息,包括计数、平均值、标准差、最小值、四分位数等,对于数值型数据非常有用。 4. **中心趋势指标**:如均值(平均数)、中位数(将数据分为两半,中间的那个值)和众数(出现最频繁的值),它们用来描述数据集中点的典型位置。 5. **离散程度指标**:如极差(最大值减最小值)、IQR(四分位距,即上四分位数与下四分位数之差)和标准差(衡量数据分散的程度)。 6. **数据分布形状**:通过计算偏度和峰度(分别衡量数据分布的对称性和尖锐度),可以判断数据是否对称、偏斜或呈现某种特定的形态。 7. **缺失值处理**:Pandas提供了`isnull()`和`notnull()`来检查缺失值,以及`fillna()`和`dropna()`来处理这些缺失值。 当你使用Pandas对数据进行描述性统计时,通常会结合可视化工具(如matplotlib或seaborn)来直观地呈现数据的特性,以便于更好地理解和分析数据集。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值