Pandas补充

分位数

以10%分位数为例,10%分位数是指将一组数据按照从小到大的顺序排列后,处于第10%位置的数值。换句话说,它是将数据集分成10等份时,位于第一份的最大值。

计算10%分位数的方法如下:

  1. 将数据集按照从小到大的顺序进行排序。

  2. 计算出数据集的总个数(n)。

  3. 计算出位置索引(index):index = (10/100) * (n + 1)。

  4. 如果index是整数,则10%分位数为排序后的第index个数值。

  5. 如果index不是整数,则10%分位数可以通过线性插值来计算。假设index的整数部分为k,小数部分为d,那么10%分位数可以近似表示为:10%分位数 = (1-d) * 第k个数值 + d * 第(k+1)个数值。

10%分位数在统计学和数据分析中常用于观察数据的分布情况和描述数据的位置特征。它可以帮助我们了解数据集中较小的一部分数据的取值情况,进而对整体数据集有更全面的认识。

平均绝对偏差

平均绝对偏差(Mean Absolute Deviation,简称MAD)是一种用来衡量数据集中各个数据点与其均值之间差异的统计指标。它表示了数据点离均值的平均距离,用于描述数据的离散程度。

计算平均绝对偏差的步骤如下:

  1. 计算数据集的均值(mean)。

  2. 对于每个数据点,计算其与均值之间的绝对偏差(absolute deviation),即数据点减去均值的绝对值。

  3. 将所有数据点的绝对偏差求和。

  4. 将总和除以数据点的个数,得到平均绝对偏差。

数学公式表示为:MAD = Σ(|Xi - mean|) / n

其中,Xi表示第i个数据点,mean表示数据集的均值,n表示数据点的个数。

平均绝对偏差越大,表示数据点相对于均值的离散程度越大,数据集的变异性也就越大。与方差相比,平均绝对偏差更加鲁棒,对极端值的影响较小,因此在某些情况下更适合作为衡量数据集离散程度的指标。

需要注意的是,平均绝对偏差并不考虑数据点的正负方向,只关注数据点与均值之间的距离。

偏度

偏度(Skewness)是描述概率分布不对称程度的统计量。在统计学中,偏度用于衡量数据分布的偏斜程度,即数据分布的左右两侧是否对称。

如果数据分布左侧比右侧更长,我们称为负偏态,偏度值为负数;如果数据分布右侧比左侧更长,我们称为正偏态,偏度值为正数;如果数据分布左右对称,则偏度值为0。

偏度的计算方法如下:

  1. 计算数据集的均值(mean)和标准差(standard deviation)。

  2. 对于每个数据点,计算其与均值之间的标准化偏差(standardized deviation),即数据点减去均值后除以标准差。

  3. 将所有数据点的标准化偏差的三次方求和。

  4. 将总和除以数据点的个数,得到偏度值。

数学公式表示为:Skewness = (1/n) * Σ[(Xi - mean)/standard deviation] ^ 3

其中,Xi表示第i个数据点,mean表示数据集的均值,standard deviation表示数据集的标准差,n表示数据点的个数。

偏度是一种重要的统计量,它可以帮助我们了解数据分布的偏斜程度,进而选择合适的统计方法和模型来对数据进行分析和建模。需要注意的是,偏度只是描述数据分布的一个方面,不能完全代表数据的特征,因此在数据分析中需要综合考虑其他统计量和图形分析等方法。

峰度

峰度(Kurtosis)是一种用来衡量概率分布曲线尖峭或平坦程度的统计量。它描述了数据分布在均值附近的峰值形态。

峰度可以告诉我们数据集中极端值的相对频率,以及数据集在中心位置附近的形态特征。具体而言,峰度可以分为以下几种情况:

  1. 正常态峰度(Mesokurtic):正常态分布的峰度为3。如果数据的峰度等于3,表示数据分布的峰值与正态分布相似,没有明显的尖峭或平坦。

  2. 尖峰态峰度(Leptokurtic):如果数据的峰度大于3,表示数据分布的峰值比正态分布更尖峭,数据集中有更多的极端值。

  3. 平峰态峰度(Platykurtic):如果数据的峰度小于3,表示数据分布的峰值比正态分布更平坦,数据集中的极端值较少。

峰度的计算方法如下:

  1. 计算数据集的均值(mean)和标准差(standard deviation)。

  2. 对于每个数据点,计算其与均值之间的标准化偏差(standardized deviation),即数据点减去均值后除以标准差。

  3. 将所有数据点的标准化偏差的四次方求和。

  4. 将总和除以数据点的个数,得到峰度值。

数学公式表示为:

Kurtosis = (1/n) * Σ[(Xi - mean)/standard deviation] ^ 4

其中,Xi表示第i个数据点,mean表示数据集的均值,standard deviation表示数据集的标准差,n表示数据点的个数。

峰度是一种重要的统计量,它可以帮助我们了解数据分布的形态特征,进而选择合适的统计方法和模型来对数据进行分析和建模。需要注意的是,峰度只是描述数据分布的一个方面,不能完全代表数据的特征,因此在数据分析中需要综合考虑其他统计量和图形分析等方法。

离散型数据

离散型数据是指一种具有有限或可数个可能取值的数据类型。离散型数据通常表示计数或计量某种特定属性的结果,这些结果只能是整数或特定的离散值。

离散型数据与连续型数据相对。连续型数据可以取任意实数值,而离散型数据只能取特定的、可数的值。例如,投掷一个六面骰子的结果是离散型数据,因为它只能是1、2、3、4、5或6中的一个整数。另外,一个人拥有的宠物数量也是离散型数据,因为宠物数量只能是0、1、2、3等整数。

离散型数据可以用来描述分类变量或计数型变量。分类变量指的是将数据分为不同的类别,例如性别(男、女)、血型(A、B、AB、O)等。计数型变量指的是记录某个事件发生的次数,例如一个月内的交通事故次数、产品销售量等。

在统计分析中,离散型数据通常用于计算频数、频率和概率等统计量。常见的离散型数据分析方法包括列联表分析、卡方检验、二项分布等。

相关系数

相关系数是一种用于衡量两个变量之间线性相关程度的统计量。它可以告诉我们两个变量之间的关系强度和方向,即它们如何随着彼此的变化而变化。

  1. 皮尔逊相关系数(Pearson correlation coefficient):

  • 用途:衡量两个连续型变量之间的线性关系。
  • 计算方式:计算两个变量的协方差,并除以两个变量的标准差的乘积。
  • 取值范围:-1 ≤ r ≤ 1,其中 -1 表示完全负相关,1 表示完全正相关,0 表示没有线性相关性。
  • 假设:基于总体的正态分布假设。
  1. 斯皮尔曼等级相关系数(Spearman's rank correlation coefficient):

  • 用途:衡量两个变量之间的单调关系,可以是线性或非线性的。
  • 计算方式:将原始数据转换为等级或顺序,并计算等级之间的皮尔逊相关系数。
  • 取值范围:-1 ≤ ρ ≤ 1,其中 -1 表示完全逆序相关,1 表示完全顺序相关,0 表示没有单调关系。
  • 假设:基于两个变量的等级或顺序。
  1. 刻度相关系数(Kendall's rank correlation coefficient):

  • 用途:衡量两个变量之间的顺序关系,可以是线性或非线性的。
  • 计算方式:计算两个变量的等级之间的差异,并计算等级差异之间的百分比。
  • 取值范围:-1 ≤ τ ≤ 1,其中 -1 表示完全逆序相关,1 表示完全顺序相关,0 表示没有顺序关系。
  • 假设:基于两个变量的等级。

总结来说,皮尔逊相关系数适用于衡量两个连续型变量之间的线性关系,斯皮尔曼等级相关系数和刻度相关系数适用于衡量两个变量之间的顺序或单调关系,即可以看出数据间是单调递增或单调递减的程度。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值