幂律分布

    最近开始学习社交网络方面的知识,作为一个入门级的菜鸟,先了解一下基础的只是理论和方法是很有必要的,今天在社交网络图分布这一块看到了一个幂律分布,感觉很陌生因为之前的概率论和数理统计课程是不学习这个东西的,所以就上网查一些资料,作为自己的的学习资料,放在这里,也希望能帮到有同样需要的同学,欢迎有同样研究兴趣的一起交流。

摘自:http://www.baike.com/wiki/%E5%B9%82%E5%BE%8B%E5%88%86%E5%B8%83

    所谓幂律,是说节点具有的连线数和这样的节点数目乘积是一个定值,也就是几何平均是定值,比如有10000个连线的大节点有10个,有1000个连线的中节点有100个,100个连线的小节点有1000个,在对数坐标上画出来会得到一条斜向下的直线。自然界与社会生活中存在各种各样性质迥异的幂律分布现象,因而对它们的研究具有广泛而深远的意义。借助于有效的物理和数学工具以及强大的计算机运算能力,科学家们对幂律分布的本质有了进一步深层次的理解。

    自然界与社会生活中存在各种各样性质迥异的幂律分布现象。1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系,这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。实际上,包括汉语在内的许多国家的语言都有这种特点。

19世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20法则,即20%的人口占据了80%的社会财富。个人收入X不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系,即为Pareto定律。

Zipf定律与Pareto定律都是简单的 幂函数,我们称之为幂律分布;还有其它形式的幂律分布,像名次—规模分布,规模—概率分布,这四种形式在数学上是等价的。

幂律分布表现为一条斜率为 幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。

统计物理学家习惯于把服从幂律分布的现象称为无标度现象,即,系统中个体的尺度相差悬殊,缺乏一个优选的规模。可以说,凡有生命的地方,有进化,有竞争的地方都会出现不同程度的无标度现象。
    

泊松分布

幂律分布 幂律分布图册
自然界与社会生活中,许多科学家感兴趣的事件往往都有一个典型的规模,个体的尺度在这一特征尺度附近变化很小. 比如说人的身高,中国成年男子的身高绝大多数都在平均值1.70m左右. 当然,地域不同这一数值会有一定的变化,但无论怎样,我们从未在大街上见过身高低于10cm的“小矮人”,或高于10m的“巨人”. 如果我们以身高为横坐标,以取得此身高的人数或概率为纵坐标,可绘出一条钟形分布曲线,这种 曲线两边衰减得极快;类似这样以一个平均值就能表征出整个群体特性的分布,我们称之为泊松分布。另外一个我们要注意的是最高的人与最矮的人的身高之比,根据吉尼斯世界纪录,世界上最高的人与最矮的人(均已去世)的身高分别是2. 72m和0. 57m,二者之比为4. 8,这个数值并不是很大,我们将在下文中证实。

对于另一些分布,像国家GDP或个人收入的分布,情况就大不一样了,个体的尺度可以在很宽的范围内变化,这种波动往往可以跨越多个数量级. 比如根据 世界银行的统计,最富有的国家—美国,其2003年GDP高达10, 881, 609, 000, 000美元(一个天文数字) ,而数据显示同年GDP最低的国家—西非岛国圣多美和普林西比,只有54, 000, 000美元,二者之比高达201511. 3. 个人收入分布亦是如此,想想世界首富比尔·盖茨那高达465亿美元的个人资产就清楚了. 国家或城市人口的分布也会出现类似的情形. 据世界银行的统计, 2003年人口最多的国家—中国,总人口数多达1, 288, 400,000,而数据显示同年人口最少的国家—西太平洋上的帕劳群岛,人口数仅为20, 000 (不及中国一个普通县城的人口数) ,二者之比有64420之多。

长尾分布

幂律分布 幂律分布图册
以收入值或国家总人口数为横坐标,以不低于该收入值的人数(概率)或国家数目(概率)为纵坐标,可绘出一条向右偏斜得很厉害,拖着长长“尾巴”的概率分布曲线 ,它与钟形的泊松分布曲线有显著的不同. 这种“长尾”分布表明,绝大多数个体的尺度很小,而只有少数个体的尺度相当大,像国家人口,全世界有224个国家和地区,只有11个国家的人口数超过一亿。

对“长尾”分布研究做出重要贡献的是Zipf和Pareto ,虽然他们并不是这种分布的最早发现者.1932年, 哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的排名序号的常数次幂存在简单的反比关系: P ( r) ~r-α ,这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用. 实际上,包括汉语在内的许多国家的语言都有这种特点. 物理世界在相当程度上是具有惰性的,动态过程总能找到能量消耗最少的途径,人类的语言经过千万年的演化,最终也具有了这种特性,词频的差异有助于使用较少的词汇表达尽可能多的语义,符合“最小努力原则”. 分形几何学的创始人Mandelbrot对Zipf定律进行了修订,增加了几个参数,使其更符合实际的情形。
19世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20 法则,即20%的人口占据了80%的社会财富. 个人收入X 不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系: P [X ≥x ]~x - k ,此式即为Pareto定律(帕累托定律)。

Zipf定律与Pareto定律都是简单的 幂函数,我们称之为幂律分布;还有其他形式的幂律分布,像名次- 规模分布、规模- 概率分布,这四种形式在数学上是等价的,其通式可写成 ,其中x, y是正的随机变量,c, r均为大于零的 常数. 这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大. 对上式两边取对数,可知lny与lnx满足线性关系lny= lnc - rlnx,也即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。

判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法,可得lny对lnx的经验回归直线方程,从而得到y与x之间的幂律关系式.在双对数坐标下的图形,由于某些因素的影响,前半部分的线性特性并不是很强,而在后半部分,则近乎为一直线,其斜率的负数就是幂指数。


转自:幂律分布常见模型

1           几种幂率分布模型

幂律分布的特征:其通式可写成y=cx-r,其中xy是正的随机变量,cr均为大于零的常数。这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。对上式两边取对数,可知lnylnx满足线性关系lny=lnc-rlnx,也即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法,可得lnylnx的经验回归直线方程,从而得到yx之间的幂律关系式。

1.1         Zipf's law f(r r-b

英文单词中序为r的单词出现次数(频率)f(r)反比于r的幂,即有f(r)~r-b

1.2         Pareto distribution P[X >= x]  x-k

19世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20法则,即20%的人口占据了80%的社会财富。个人收入X不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系(累计分布函数 cumulative distribution function,简称CDF)P[Xx]x-k,此式即为Pareto定律。Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布。对Pareto分布P[>= x] ~ x-k,通过求导很容易得到其概率分布密度:p[x] ~ x-(k+1) = x-a= 1+k

1.3         Gutenberg-Richter law

Gutenberg Richter 1954年发现地震震级为m的地震分布N(m)的对数和震级m之间存在线性关系:logN(mabm

2           幂率分布形成机制

为了解释幂律分布的形成原因,科学家们提出了几种机制,包括增长与优先连接、自组织临界、HOT理论、渗流模型及一些随机过程等。

2.1         优先连接

BarabásiAlbert针对复杂网络中普遍存在的幂律分布现象,提出了网络动态演化的BA模型,他们解释,成长性和优先连接性是无标度网络度分布呈现幂律的两个最根本的原因。所谓成长性是指网络节点数的增加,像Internet中自治系统或路由器的添加,以及WWW中网站或网页的增加等,优先连接性是指新加入的节点总是优先选择与度值较高的节点相连,比如,新网站总是优先选择人们经常访问的网站作为超链接。随着时间的演进,网络会逐渐呈现出一种“富者愈富,贫者愈贫”的现象。社会学家所说的“马太效应”。“优先连接”并不适用于所有出现幂律分布的情况,即便是对于某些无标度网络,用它解释幂律的成因也显得很不合理。以生态系统中的食物链为例,认为被捕食者最有可能被猎物广泛的杂食性捕食者吃掉,确实是一件很荒唐的事。还有像Internet、航空网等网络,流量或容量的限制可以在一定程度上抑制优先连接性,电影演员的合作网络中,节点(演员)的衰老或隐退也能起到类似的作用。

2.2         自组织临界理论

自组织临界它认为,由大量相互作用的成分组成的系统会自然地向自组织临界态发展;当系统达到这种状态时,即使是很小的干扰事件也可能引起系统发生一系列灾变。沙堆模型

幂律分布是自组织临界系统在混沌边缘,即从稳态过渡到混沌态的一个标志,利用它可以预测这类系统的相位及相变。自组织临界理论可以解释诸如火山爆发、山体滑坡、岩层形成、日辉耀斑、物种灭绝、交通阻塞、以及金融市场中的幂律分布现象。这种理论的启示是小事件和大事件可能有相同的起因,这为地震、恐龙灭绝、森林火灾等复杂大系统的突变提供了新的解释。以恐龙灭绝为例,古生物学家经过对化石的研究指出,这一重大事件不是经历了数万年或者几年,而是在20多天的突变中“一朝覆灭”的。恐龙的灭绝可以被看作是处于临界状态下的生态系统发生的一次“大雪崩”

2.3         HOT理论

另一种解释幂律分布形成原因的重要理论是HOT。该理论由加州大学圣巴巴拉分校的Jean Carlson以及加州理工学院的John Doyle提出。他们宣称,对于由许多子系统连结成的复杂系统,不管是自然演化还是人为设计的,当该系统可以有效地容忍某些不确定因素时(具强健性),将对其他未被考虑到的不确定因素变得更敏感。也就是说,强健性和敏感度具有相互递换的效果。这里的不确定因素包含系统内部的不确定因素以及外在环境的干扰。以生态系统为例,如果它可以容忍气温、湿度、养分等巨幅变化,那么这生态系统却可能无法容忍一些意料之外的小干扰,如基因突变、外来族群迁入、或新的病毒,这些干扰可能会造成生态环境的巨大改变。当一复杂系统处于HOT状态时,该系统将满足幂律,也就是说,全局性的优化过程可导致幂律分布:具有特征尺度的输入经过一个全局性的系统“产量”优化过程后,可产生具有幂律分布特性的输出。全局性优化在生态系统、航空航天与汽车系统、林业系统、因特网、交通运输及电力系统中具有广泛的应用,HOT理论可以解释上述系统中出现的幂律分布现象,比如可以解释林业系统中火灾规模所呈现的幂律分布。


转自:关于幂律分布的一个笔记

0:题外话或补记

最早知道二八法则,还是一本介绍犹太民族杰出人物的书,被称为犹太法则。说犹太人跟钱打交道较其他民族多,很早就知道了这个世界上是80%的人把钱借给了20%的会钱生钱的人,而且论据之一居然是人体80%是由水组成,只有20%为其他关键物质;另一论据是空气80%由氮气构成,只有20%包括氧气在内的其他气体。这些固然都是颇有趣的现象,但一直未能上升到理论的高度。

 

1:幂律即Power law是系统科学中一个常见的现象

经济学财富分布满足Pareto Power law tail分布,语言中有词频的幂律分布,城市规模和数量满足幂律分布,音乐中有f分之1噪音(幂律分布)……。通常人们理解幂律分布就是所谓的马太效应,二八原则,即少数人聚集了大量的财富,而大多数人的财富数量都很小,因为胜者通吃的原则。

           

股市中有80%的投资者只想着怎么赚钱,仅有20%的投资者考虑到赔钱时的应变策略。但结果是只有那20%投资者能长期盈利,而80%投资者却常常赔钱。

  20%赚钱的人掌握了市场中80%正确的有价值信息,而80%赔钱的人因为各种原因没有用心收集资讯;  当80%人看好后市时,股市已接近短期头部,当80%人看空后市时,股市已接近短期底部。只有20%的人可以做到铲底逃顶,80%人是在股价处于半山腰时买卖的。

  券商的80%佣金是来自于20%短线客的交易,股民的80%收益却来自于20%的交易次数。因此,除非有娴熟的短线投资技巧,否则不要去贸然参与短线交易。

  只占市场20%的大盘指标股对指数的升降起到80%作用,在研判大盘走向时,要密切关注这些指标股的表现。

  一轮行情只有20%的个股能成为黑马,80%个股会随大盘起伏。80%投资者会和黑马失之交臂,但仅20%的投资者与黑马有一面之缘,能够真正骑稳黑马的更是少之又少。

  有80%投资利润来自于20%的投资个股,其余20%投资利润来自于80%的投资个股。投资收益有80%来自于20%笔交易,其余80%笔交易只能带来20%的利润。所以,投资者需要用80%的资金和精力关注于其中最关键的20%的投资个股和20%的交易。

  股市中20%的机构和大户占有80%的主流资金,80%的散户占有20%资金,所以,投资者只有把握住主流资金的动向,才能稳定获利。

  成功的投资者用80%时间学习研究,用20%时间实际操作。失败的投资者用80%时间实盘操作,用20%时间后悔。

  股价在80%的时间内是处于量变状态的,仅在20%的时间内是处于质变状态。成功的投资者用20%时间参与股价质变的过程,用80%时间休息,失败的投资者用80%时间参与股价量变的过程,用20%时间休息。

 

 

2:几种幂率分布模型

以收入或人口数为横坐标,以不低于该收入值或人口数的个体数或概率为纵坐标,可绘出一条向右偏斜得很厉害,拖着长长“尾巴”的累积分布曲线(如图1右图所示),它与钟形的泊松分布曲线有显著的不同。这种“长尾”分布表明,绝大多数个体的尺度很小,而只有少数个体的尺度相当大,像国家人口,全世界有300多个国家和地区,只有11个国家的人口数超过一亿。“长尾”分布就属于幂律分布。

关于幂律分布的一个笔记

 

     图1 泊松分布(左)                   与           “长尾”分布(右)

对“长尾”分布研究做出重要贡献的是Zipf和Pareto。

     1932年,语言学家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系:P(r)~r^(-α),这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。实际上,包括汉语在内的许多国家的语言都有这种特点。物理世界在相当程度上是具有惰性的,动态过程总能找到能量消耗最少的途径,人类的语言经过千万年的演化,最终也具有了这种特性,词频的差异有助于使用较少的词汇表达尽可能多的语义,符合“最小努力原则”。

     19世纪的意大利经济学家帕累托(Pareto)研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20法则,即20%的人口占据了80%的社会财富。个人收入X不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系:P[X≥k]~x^(-k),上式即为Pareto定律。对Pareto分布P[X >= x] ~ x-k,通过求导很容易得到其概率分布密度:p[X x] ~ x-(k+1) = x-aa = 1+k。对于Pareto定律,在成熟市场中,金融资产收益率的幂律分布其幂指数约等于3.

     Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布;还有其它形式的幂律分布,像名次——规模分布、规模——概率分布,这四种形式在数学上是等价的,幂律分布的示意图如图1右图所示,其通式可写成y=c*x^(-r),其中x,y是正的随机变量,c,r均为大于零的常数。这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。对上式两边取对数,可知lny与lnx满足线性关系,也即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法可得lny对lnx的经验回归直线方程,从而得到y与x之间的幂律关系式。图2显示的是图1右图在双对数坐标下的图形,由于某些因素的影响,图2前半部分的线性特性并不是很强,而在后半部分(对应于图1右图的尾部),则近乎为一直线,其斜率的负数就是幂指数。  

                         关于幂律分布的一个笔记         

      图2 双对数坐标下一个幂律分布的示意图,直线表示对图1右图尾部的线性拟合

                 Gutenberg-Richter law

Gutenberg Richter 1954年发现地震震级为m的地震分布N(m)的对数和震级m之间存在线性关系:logN(m) abm;

    

3:幂律可作为自组织临界的证据

幂律分布是自组织临界系统在混沌边缘,即从稳态过渡到混沌态的一个标志,利用它可以预测这类系统的相位及相变。它认为,由大量相互作用的成分组成的系统会自然地向自组织临界态发展;当系统达到这种状态时,即使是很小的干扰事件也可能引起系统发生一系列灾变。著名的“沙堆模型”形象地说明了自组织临界态的形成和特点(如图3):

关于幂律分布的一个笔记

设想在一平台上缓缓地添加沙粒,一个沙堆逐渐形成。开始时,由于沙堆平矮,新添加的沙粒落下后不会滑得很远。但是,随着沙堆高度的增加,其坡度也不断增加,沙崩的规模也相应增大,但这些沙崩仍然是局部性的。到一定时候,沙堆的坡度会达到一个临界值,这时,新添加一粒沙子(代表来自外界的微小干扰)就可能引起小到一粒或数粒沙子,大到涉及整个沙堆表面所有沙粒的沙崩。这时的沙堆系统处于“自组织临界态”,有趣的是,临界态时沙崩的大小与其出现的频率呈幂律关系。这里所谓的“自组织”是指该状态的形成主要是由系统内部各组成部分间的相互作用产生,而不是由任何外界因素控制或主导所致,这是一个减熵有序化的过程;“临界态”是指系统处于一种特殊的敏感状态,微小的局部变化可以不断被放大、进而扩延至整个系统自组织临界理论可以解释诸如火山爆发、山体滑坡、岩层形成、日辉耀斑、物种灭绝、交通阻塞、以及金融市场中泡沫崩溃的现象。

    

  4:启示

  帕累托法则换句话就是强调了重要的少数与琐碎的多数,也指世界上充满了不平衡性,比如20%的人口拥有80%的财富,20%的上市公司创造了80%的价值,80%的收入来自20%的商品,80%的利润来自20%的顾客,等等。

    这一法则潜在地影响了许多成功人士,特别是商界精英、计算机专家和质量工程师。这一法则已经帮助人们塑造了一个现代化世界。然而,它现在依然是我们这个时代一个伟大的秘密。即使是那些百里挑一的能理解并运用80/20法则的行家们,也不过仅仅发现了它的冰山一角而已。


转自:幂率分布应用的几个实例

1:股票流通市值的幂分布:

下图仅仅取A股市场的100家股票,  按流通市值大小排序。注意前20家!其后是“长尾”!

幂率分布应用的几个实例

下图中红色曲线为拟合的幂分布函数曲线,拟合的相关程度99.6%,其幂指数为0.897

 

幂率分布应用的几个实例
下图:在双对数坐标下,幂律分布表现为一条斜率为幂指数的是负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。

幂率分布应用的几个实例

上面的几幅图,除了可以二八原则来说明以外,也揭示了2010年为何沪指落后于深综指的内在道理。这些大家伙们的滞涨,严重拖累了沪指。下图为总市值的分布情形,道理相同,就不多贴图了。

幂率分布应用的几个实例



2:A 股市场每股收益的幂分布:1000家股票拟合的幂分布函数曲线,拟合的相关程度93.7%,其幂指数约为0.53

幂率分布应用的几个实例

幂率分布应用的几个实例

3:本博作为石油工程师的一个应用实例

下面的两幅图是新疆风城油田的实际数据:抽油机作为耗电“老虎”,其工程指标为产液单耗,即从井每产一吨液耗多少度电,描述抽油机自身效率的技术指标为系统效率。二者的关系呈幂律分布关系,这一发现对于我们工程技术或油田管理人员进行提高系统效率,无疑具有很大的指导意义:即抓住20%的低效井进行治理改造,就可取得80%的提高效果。这一调查研究结果,至今在石油行业的教科书中尚未见到。

幂率分布应用的几个实例

幂率分布应用的几个实例

 




  • 8
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值