2018-4-2 幂律分布函数

材料来源

幂律分布 - CSDN博客

https://blog.csdn.net/Together_CZ/article/details/71403073?locationNum=6&fps=1

(1)幂律分布的定义:

节点具有的连线数和这样的节点数目乘积是一个定值,也就是几何平均是定值,比如有10000个连线的大节点有10个,有1000个连线的中节点有100个,100个连线的小节点有1000个,在对数坐标上画出来会得到一条斜向下的直线。

也就是:   定值=连线数*节点数

幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。

统计物理学家习惯于把服从幂律分布的现象称为无标度现象,即,系统中个体的尺度相差悬殊,缺乏一个优选的规模。可以说,凡有生命的地方,有进化,有竞争的地方都会出现不同程度的无标度现象。

(2)80/20法则------也就是长尾分布
19世纪的意大利经济学家Pareto研究了个人收入的 统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20 法则,即20%的人口占据了80%的社会财富. 个人收入X 不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系: P [X ≥x ]~x - k ,此式即为Pareto定律(帕累托定律)。
(3)幂律分布的模型:

幂律分布的特征:其通式可写成y=cx-r,其中xy是正的随机变量,cr均为大于零的常数。这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。对上式两边取对数,可知lnylnx满足线性关系lny=lnc-rlnx,也即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法,可得lnylnx的经验回归直线方程,从而得到yx之间的幂律关系式。

3.1: Zipf's law f(r r-b         英文单词中序为r的单词出现次数(频率)f(r)反比于r的幂,即有f(r)~r-b

3.2: Pareto distribution P[X >= x]  x-k      19世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20法则,即20%的人口占据了80%的社会财富。个人收入X不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系(累计分布函数 cumulative distribution function,简称CDF)P[Xx]x-k,此式即为Pareto定律。Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布。对Pareto分布P[>= x] ~ x-k,通过求导很容易得到其概率分布密度:p[x] ~ x-(k+1) = x-a= 1+k

3.3:  Gutenberg-Richter law     Gutenberg Richter 1954年发现地震震级为m的地震分布N(m)的对数和震级m之间存在线性关系:logN(mabm


(4)幂律分布的形成机制:

4.1         优先连接

BarabásiAlbert针对复杂网络中普遍存在的幂律分布现象,提出了网络动态演化的BA模型,他们解释,成长性和优先连接性是无标度网络度分布呈现幂律的两个最根本的原因。所谓成长性是指网络节点数的增加,像Internet中自治系统或路由器的添加,以及WWW中网站或网页的增加等,优先连接性是指新加入的节点总是优先选择与度值较高的节点相连,比如,新网站总是优先选择人们经常访问的网站作为超链接。随着时间的演进,网络会逐渐呈现出一种“富者愈富,贫者愈贫”的现象。社会学家所说的“马太效应”。“优先连接”并不适用于所有出现幂律分布的情况,即便是对于某些无标度网络,用它解释幂律的成因也显得很不合理。以生态系统中的食物链为例,认为被捕食者最有可能被猎物广泛的杂食性捕食者吃掉,确实是一件很荒唐的事。还有像Internet、航空网等网络,流量或容量的限制可以在一定程度上抑制优先连接性,电影演员的合作网络中,节点(演员)的衰老或隐退也能起到类似的作用。

4.2         自组织临界理论

自组织临界它认为,由大量相互作用的成分组成的系统会自然地向自组织临界态发展;当系统达到这种状态时,即使是很小的干扰事件也可能引起系统发生一系列灾变。沙堆模型

幂律分布是自组织临界系统在混沌边缘,即从稳态过渡到混沌态的一个标志,利用它可以预测这类系统的相位及相变。自组织临界理论可以解释诸如火山爆发、山体滑坡、岩层形成、日辉耀斑、物种灭绝、交通阻塞、以及金融市场中的幂律分布现象。这种理论的启示是小事件和大事件可能有相同的起因,这为地震、恐龙灭绝、森林火灾等复杂大系统的突变提供了新的解释。以恐龙灭绝为例,古生物学家经过对化石的研究指出,这一重大事件不是经历了数万年或者几年,而是在20多天的突变中“一朝覆灭”的。恐龙的灭绝可以被看作是处于临界状态下的生态系统发生的一次“大雪崩”

4.3         HOT理论

另一种解释幂律分布形成原因的重要理论是HOT。该理论由加州大学圣巴巴拉分校的Jean Carlson以及加州理工学院的John Doyle提出。他们宣称,对于由许多子系统连结成的复杂系统,不管是自然演化还是人为设计的,当该系统可以有效地容忍某些不确定因素时(具强健性),将对其他未被考虑到的不确定因素变得更敏感。也就是说,强健性和敏感度具有相互递换的效果。这里的不确定因素包含系统内部的不确定因素以及外在环境的干扰。以生态系统为例,如果它可以容忍气温、湿度、养分等巨幅变化,那么这生态系统却可能无法容忍一些意料之外的小干扰,如基因突变、外来族群迁入、或新的病毒,这些干扰可能会造成生态环境的巨大改变。当一复杂系统处于HOT状态时,该系统将满足幂律,也就是说,全局性的优化过程可导致幂律分布:具有特征尺度的输入经过一个全局性的系统“产量”优化过程后,可产生具有幂律分布特性的输出。全局性优化在生态系统、航空航天与汽车系统、林业系统、因特网、交通运输及电力系统中具有广泛的应用,HOT理论可以解释上述系统中出现的幂律分布现象,比如可以解释林业系统中火灾规模所呈现的幂律分布。

(5)幂律分布的几个实例

来源:

幂率分布应用的几个实例_哈克_新浪博客

http://blog.sina.com.cn/s/blog_55954cfb0100pvcw.html

1:股票流通市值的幂分布:

下图仅仅取A股市场的100家股票,  按流通市值大小排序。注意前20家!其后是“长尾”!

幂率分布应用的几个实例

下图中红色曲线为拟合的幂分布函数曲线,拟合的相关程度99.6%,其幂指数为0.897

 

幂率分布应用的几个实例
下图:在双对数坐标下,幂律分布表现为一条斜率为幂指数的是负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。

幂率分布应用的几个实例

上面的几幅图,除了可以二八原则来说明以外,也揭示了2010年为何沪指落后于深综指的内在道理。这些大家伙们的滞涨,严重拖累了沪指。下图为总市值的分布情形,道理相同,就不多贴图了。

幂率分布应用的几个实例



2:A 股市场每股收益的幂分布:1000家股票拟合的幂分布函数曲线,拟合的相关程度93.7%,其幂指数约为0.53

幂率分布应用的几个实例

幂率分布应用的几个实例

3:本博作为石油工程师的一个应用实例

下面的两幅图是新疆风城油田的实际数据:抽油机作为耗电“老虎”,其工程指标为产液单耗,即从井每产一吨液耗多少度电,描述抽油机自身效率的技术指标为系统效率。二者的关系呈幂律分布关系,这一发现对于我们工程技术或油田管理人员进行提高系统效率,无疑具有很大的指导意义:即抓住20%的低效井进行治理改造,就可取得80%的提高效果。这一调查研究结果,至今在石油行业的教科书中尚未见到。

幂率分布应用的几个实例

幂率分布应用的几个实例





  • 3
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值