Power law and Power law distribution(幂律和幂律分布)

本文深入探讨了幂律分布的概念及其在实际数据中的应用。从数学角度,介绍了连续和离散幂律分布的定义,并提供了归一化常数的计算方法。在实践操作中,幂律通常只适用于数据的尾部部分。文章重点讨论了如何正确地拟合幂律分布到经验数据,包括如何估计尺度参数,并提供了连续和离散情况下的最大似然估计(MLE)方法。此外,还涉及了数据拟合过程中的数值近似技巧和误差估计。
摘要由CSDN通过智能技术生成

原文:《Power-law distribution in empirical data》

1. Introduction

有些分布可以很好的描述,比如成年男性的身高,某物体的重量等,它们可以用典型值可平均值来进行描述。但并不是所有的分布都服从该模型。在这些分布中 power law 多年来因其数学性质(有时会导致令人惊讶的物理结果)以及在各种自然和人为现象中出现而受到特别关注。例如,城市人口、地震强度和停电的规模都被认为具有幂律分布。诸如此类的数量不能很好地用它们的典型值或平均值来描述。

从数学上讲,如果 x 从概率分布中得到,它就服从幂律:

其中 α 是分布的常数参数,称为指数(exponent)或尺度参数(scaling parameter)。尺度参数通常在2 < α < 3的范围内,但也有例外。

在实践中,很少有经验现象对所有的 x 值都服从幂律。幂律通常只适用于大于某个最小的值。在这种情况下,我们说分布的尾部遵循幂律。

 2. Definition

Power-law distributions 有两种基本形式:连续分布支配连续实数,而离散分布所关注的量只能取一组离散值,通常是正整数。

设 x 代表我们感兴趣的量的分布。

连续幂律分布是由概率密度 p(x) 所描述的一种分布:

 其中 C 为观测值,X 为归一化常数。显然,这个密度在 x→0 时发散,所以公式(2.1)不能适用于所有 x≥0 的情况,因此幂律行为必须有一个下界。用来表示这个边界。然后,如果 α > 1,计算归一化常数很简单,则:

 离散情况下,x 只能取一组离散的值。原文中,只考虑整数值具有概率分布形式的情况

 这个分布在 0 处同样发散,所以在幂律的情况必须有一个下界。通过计算归一化常数,得到

 其中

 是广义的或 Hurwizt zeta 函数。

 在许多情况下,考虑幂律分布变量的互补累积分布函数(complimentary cumulative distribution function)或 CDF 是有用的,我们将其表示为 P(x),对于连续和离散情况,其定义为

 例如,在连续的情况下

 

 在离散情况下

 由于连续分布的公式(如式(2.2))往往比离散分布的公式简单,为了数学上的方便,通常将离散幂律行为近似为连续分布的幂律行为。一个相对可靠的方法是把整数幂律当作x的值是由连续幂律生成的,然后四舍五入到最接近的整数。这种方法在许多应用中给出了相当准确的结果。然而,其他的近似,如截断(向下舍入),或简单地假设在离散和连续的情况下产生整数值的概率是成比例的,会得到糟糕的结果,应该避免。

3. Fitting power laws to empirical data.

现在转向本文的第一个主要目标,幂律形式的经验分布的正确拟合。对遵循幂律的经验分布的研究通常会给出一些尺度参数 α 的估计,偶尔也会给出尺度区域的下界的估计。本节描述一种估计幂律分布参数的一般精确方法。

 3.1. Estimating the scaling parameter

首先考虑尺度参数 α 的估计。正确估计 α 需要数据中幂律行为的下界的值。

对观测数据拟合幂律分布等参数化模型的选择方法是极大似然法,它可证明在大样本容量的极限下给出精确的参数估计。假设我们的数据来自于时恰好遵循幂律的分布,我们可以导出离散和连续情况下尺度参数的极大似然估计(MLEs)。

 连续情况的MLE

其中时 x 的观测值。在这里和其他地方,我们使用“带帽”的符号,如来表示来自数据的估计;不戴帽子的符号表示的是真正的值。由似然极大值的宽度推导出的标准误差

 

 其中,高阶校正是正的。

 (在这些计算中假设 α > 1,因为 α ≤ 1 的分布是不可归一化的,因此在自然界中不会发生。如果 x 的范围是有界的,则概率分布可能为且 α ≤ 1 上面有一些截止值,但需要不同的最大似然估计量来拟合这样的分布。)

 当 x 是一个离散整数变量时,MLE 就不那么直接。对于处理了特殊情况,表明 α 的适当估计量由超越方程的解给出

 

 当,一个类似的等式成立,但 zeta 函数被广义 zetas 函数代替:

 

 撇(prime)表示对第一个参数的微分。在实践中,的评价要求我们对该方程进行数值求解。或者,可以通过对似然函数本身或其对数的直接数值最大化来估计 α (通常更简单):

 为了求得离散情况下标准误差的估计,做一个二阶近似对数似在其最大和标准差的高斯形式可能为错误估计(一般定理的方法合理的样本量大,最大似然estimates-see的行为)。结果是:

 一旦有,就很容易计算了。或者,Eq.(3.2) 对 x 和产生相同的结果。

虽然在离散情况下没有精确的封闭表达式,但可以使用第 2 节中提到的方法导出一个近似表达式,其中真实的幂律分布整数近似为四舍五入到最接近的整数的连续实数。结果是:

 该表达式比精确的离散MLE更容易计算,在不需要高精度的情况下非常有用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值