.describe() python_python描述性统计之dataframe.describe

本文详细介绍了Python中DataFrame的.describe()函数,用于进行描述性统计分析。内容包括集中趋势(众数、中位数、四分位数、平均数)、离散程度(异众比率、四分位差、方差、标准差等)、离散系数以及偏态和峰态的测度,帮助理解数据的分布特性。
摘要由CSDN通过智能技术生成

想要准确理解 describe()的使用方法,还是要着重掌握统计学的相关知识,下面重点给出相关名词解释。

dd5f24a47fcff65de1a4e1a16e2c4061.png

描述性统计使用df.describe()

描述性统计,即概括性度量。是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统计值来表示一组数据地集中性和离散型 (波动性大小)。

集中趋势

指一组数据向某一中心靠拢的程度,反映了一组数据中心点的位置所在。

众数

  • 一组数据中出现次数最多的变量值 06afb3c7-682c-eb11-8da9-e4434bdf6706.svg

  • 一般在数据量较大的情况下,众数才有意义

  • 众数是一个位置代表值,不受数据中极端值的影响

  • 众数可能不存在;也可能存在多个众数

  • Excel 中可以使用 MODE 函数计算, MODE(number1, number2, ...)

中位数

  • 一组数据排序后处于中间位置上的变量值 08afb3c7-682c-eb11-8da9-e4434bdf6706.svg

  • 将全部数据等分成两个部分。每部分包含 50% 的数据

  • 不适用于分类数据

  • 中位数是一个位置代表值,不受数据中极端值的影响

  • 中位数位置 = $ \dfrac{n+1}{2} $ , n 为数据个数

  • 中位数 09afb3c7-682c-eb11-8da9-e4434bdf6706.svg

  • Excel 中可以使用 MEDIAN 函数计算, MEDIAN(number1, number2, ...)

四分位数

  • 一组数据排序后处于 25% 和 75% 位置上的值 0bafb3c7-682c-eb11-8da9-e4434bdf6706.svg 和 0cafb3c7-682c-eb11-8da9-e4434bdf6706.svg

  • 通过 3 个点将全部数据等分成 4 个部分,每个部分包含 25% 的数据

  • Excel 中可以使用 QUARTILE 函数计算, QUARTILE(array, quart)arry 为求四分位数的数组或者数字的单元格区域, quart 决定返回哪一个四分位数

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值