pandas的汇总和计算描述统计

pandas 提供了丰富的数学和统计方法,包括 DataFrame 的 sum 和 mean 方法,用于对 Series 进行约简和汇总统计。这些方法可以从 DataFrame 的行或列中提取单个值或 Series。当值为非数值类型时,统计描述会有所不同。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

pandas提供了很多常用的数学和统计方法,其中大部分都属于约简和汇总统计,用于从Series中提取单个值(如sum或mean)或从DataFrame的行或列中提取一个Series。

一、DataFrame的sum和mean方法

    a = [[1,np.nan,9],[2,8,3],[3,5,np.nan]]
    data = DataFrame(a,index=["a","b","c"],columns=["one","two","three"])
    print(data)
    '''
       one  two  three
    a    1  NaN    9.0
    b    2  8.0    3.0
    c    3  5.0    NaN
    '''
    #对列求和
    print(data.sum())
    '''
    one       6.0
    two      13.0
    three    12.0
    '''
    #对行求和
    print(data.sum(axis=1))
    ''
在Python的据分析库Pandas中,描述性统计是一种用于理解据集基本特征的方法。它主要包括以下几种核心概念: 1. **基本统计量**:Pandas提供了一系列函,如`count()`计算非空值的量,`mean()`计算平均值,`median()`求中位,`min()``max()`找出最小值最大值,`std()``var()`计算标准差方差,这些帮助我们了解值型据的分布情况。 2. **频率分部(Histograms)**:`value_counts()`用于查看类别变量的频,而`hist()`或`plot.hist()`可用于创建直方图,展示值变量的分布情况。 3. **描述性统计汇总**:`describe()`函提供了大量的统计信息,包括计、平均值、标准差、最小值、四分位等,对于值型据非常有用。 4. **中心趋势指标**:如均值(平均)、中位(将据分为两半,中间的那个值)(出现最频繁的值),它们用来描述据集中点的典型位置。 5. **离散程度指标**:如极差(最大值减最小值)、IQR(四分位距,即上四分位与下四分位之差)标准差(衡量据分散的程度)。 6. **据分布形状**:通过计算偏度峰度(分别衡量据分布的对称性尖锐度),可以判断据是否对称、偏斜或呈现某种特定的形态。 7. **缺失值处理**:Pandas提供了`isnull()``notnull()`来检查缺失值,以及`fillna()``dropna()`来处理这些缺失值。 当你使用Pandas据进行描述性统计时,通常会结合可视化工具(如matplotlib或seaborn)来直观地呈现据的特性,以便于更好地理解分析据集。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

修炼之路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值