幂率分布

在研究网络嵌入时经常会看到幂律分布及无标度,但是以前不太明白这一现象及其产生原因,通过这篇博文,从直观层面上理解了这一分布。

这是从别处抄来的,加了点个人理解。以通俗易懂的方式解释了‘幂律分布’现象及其背后的起因,原文的网址https://www.jianshu.com/p/5ae3d2e72266

 

好,我们先来看一组现象,一组常见又特别奇怪的现象:

在抖音和快手上,有的短视频能够吸引几百万个点击量,但是其他绝大多数短视频却无人问津,这是为什么?

在微博上,大V拥有几千万的粉丝,而普通人的关注度却寥寥无几,这是为什么?

在中文里,我们经常使用的汉子也就两三千个,但实际上呢,中文汉子的总量是9万多个,换句话说,字典里的绝大多数数字,你都不会用到,这是为什么?

还有,统计学上有一个发现,它讲的是,城市的人口数量排名跟它的人口规模成反比。最大的城市的人口规模,是第二大城市的两倍,是第三大城市的三倍,是第四大城市的四倍,以此类推,用这个方法来估算城市的人口,跟人口普查的数据常常能达到惊人的相似。

这些现象都有一个共同的特征,就是它的数据波动非常大,少数点的数值特别高,大多数点的数值都很低,最大和最小的点之间,可能相差好几个数量级。统计学上,把这种情况叫做幂率分布,其图像(来自于https://www.jianshu.com/p/610654390f6a)如下所示:

                                                      

 

幂率分布的形状,是一个不断下降的曲线,从最高的峰值开始极速下降,后面拖了一个长长的尾巴。

自然界中的很多现象都遵循正态分布。比如,人的身高、体重、智商,这些统计量都有一个平均值。大家在这个平均值的周围小范围地波动。你高一点,我矮一点,差距不是特别大。正态分布图像(来自于百度百科)如下所示:

                                            

但是,还有一类现象,就像我们刚才讲的点击量、关注度、语言,还有城市人口,甚至包括人脉、财富、声望,这些都遵循的是幂率分布。

世界是不公平的。

幂率分布和正态分布,为我们展示了两个非常不同的世界。

以收入为例,在正态分布的社会里,中等收入阶层占大多数,低收入和高收入阶层只占极少数。这种分布,被认为是非常理想的社会结构,对聪明勤奋的人有激励,让弱者的落差感没那么大。

但是真实世界的趋势,是越来越像幂律分布。第一个为幂律分布命名的是经济学家帕累托。他发现,在19世纪的意大利,极少数的富人赚走了绝大部分的钱,大部分家庭的收入都很低。他的这一发现被后人称为‘帕累托法则’,也叫‘二八定律’,也就是20%的人获得了80%的收入。

在美国经济危机期间,幂律分布被赋予了新的意义。占领华尔街的运动让人们关注到一个惊人的事实,在美国,1%的高收入人群,拿走了15%的收入,而且这个贫富差距还在继续扩大。

用《新约.马太福音》里的话就是:‘凡有的,还有加倍给他叫他多余;没有的,连他所有的也要夺过来。'

用现在的话来说,就是‘穷着越穷、富者越富’。

皮凯蒂在《21世纪新资本论》里也证实了这一观点。他指出贫富两极分化的根本原因, 是资本回报率总是大于劳动回报率。所以,资本会倾向于流动到已经聚集的资本上,而不是为劳动增值。因而,有钱的人,会越来越有钱,没钱的人几乎没有办法通过劳动来追赶上。

在电影《西虹市首富》里面,主角王多鱼得到一笔以外之财,要求在短时间之内必须花掉。他使尽了浑身解数去花钱,没想到,财富想雪球一样越滚越大,挡都挡不住。这背后的原理,就是幂律分布。

产生机制:优先连接

你可能会问,既然这么不公平,那么,幂律分布背后的机制是什么?‘穷着越穷,富者越富’的现象是怎么形成的?穷人还有没有机会翻身呢?

这就涉及今天的硬核知识了。幂律分布之所以产生,是网络中的相互影响和正反馈的结果。

你看,身高、体重、智商,这些现象,人和人之间是互不影响、彼此独立的。它们不是网络现象,所以它们服从的是正态分布。

但是,财富、人脉、声望,还有人口和点击量,它们都是网络现象。一个人有多少钱、有多少人脉、有多少关注度,是在跟别人的的互动中形成的。你必须把这些现象放到网络之中,才能理解它为什么会是这样。

符合幂律分布的网络,又被称为‘无标度网络’。无标度网络的特点,是节点的中心度相差悬殊,无法用均值或方差等指标来反映分布的聚合或者离散程度,所以,我们把它叫做‘无标度’。

真实世界的网络,大部分都是无标度网络,都遵循幂律分布。从只有20多年历史的万维网到经历了40亿年漫长进化过程的蛋白质互动网络;从分子构成的网络,到由城市构成的网络。幂律分布,铁律,让人惊叹!

那么,网络为什么会呈现幂律分布呢?

这跟网络的生长机制有关。物理学家巴拉巴西认为,网络生成的方式不是随机发生的,而是优先连接。当新的节点加入网络,或者网络中有新的节点连接产生时,连接度高的节点会比连接度低的节点更有可能得到新连接,这就是所谓的优先连接。

在社交网络中,一个人的朋友越多,就越有可能认识朋友。

在互联网上,一个短视频的点击量越高,就越容易被更多人看到。

在学术界,一篇论文被引用的数量越多,就越有可能被其他论文引用。

正是在优先连接这一机制的作用下,网络才出现了幂律分布的结果。幂律分布的出现,预示着一个系统从无序到有序的过程,从随机网络发展到无标度网络的过程。幂律分布的结果,是少数的节点能够施加影响,重新组织整个系统。

以航空网为例,伦敦、芝加哥、法兰克福、阿姆斯特丹的机场都非常大,有通往全国各地、全世界各地的航班,它们是全球航线网络中的超级节点。但是与此同时,还有大量的小机场,它们是地方性的,只维持了几条航线。航空公司通过小机场覆盖尽可能多的乘客,又通过大机场这样的超级节点,最大程度地减少了转机的次数。所以,航空公司的效率,来自于他们主动运用了幂律分布。

城头变幻大王旗

经济学家弗里德曼有一个预言,他说,世界是平的。因为全球呼、因为互联网,世界在机会分布上变得更公平了。

但实际上呢,幂律分布告诉我们,公平不是世界的真相,而且,这个不公平在互联网时代被放得更大。咱们就看互联网行业,不管是哪条赛道,早期都是千军万马、百舸争流,但是最后,能活下来的只有一个或几个巨头。这些巨头利用已有的用户基础和资本体量,不断地攻城掠地,进一步加强知名度,改变用于习惯,提高用户粘性,巩固行业地位。

但是,巨头永远是巨头,这只是一厢情愿的看法。

当孙正义在投资一家叫做阿里巴巴的小公司时候,他可能没有预计马云不仅登上福布斯全球亿万富豪榜,更不会预计到还会排在他前面。而且,跟马云一起登上富豪榜的成功人士中,一半以上都是白手起家。

前几年我们还在焦虑BAT的垄断地位,可能会压制创新创业的发展,然而今天简称TMD的今日头条、美团和滴滴等新一代互联网企业,已经站在新的封口浪尖上。

换句话说,幂律分布没有那么令人绝望。我们如果只是静态地观察网络,它表现出来的是两极分化和寡头垄断,但如果我们从动态的角度看,你会发现新的超级节点总在不断涌现。社会结构的变化、世代的更替、颠覆性技术的出现,都为新的超级节点的出现创造了机会。正所谓城头变幻大王旗,各领风骚三五年。

总结一下这一讲的内容。今天我们讲了网络的一个普遍特征,那就是幂律分布。我们生活中各式各样的现象,从点击量、关注度、语言、城市人口,还有人脉、财富、声望,都遵循的是幂律分布。

幂律分布产生的原因是优先连接。新加入到网络中的节点,更倾向与超级节点建立连接。静态地看,你会看到不公平,但是,动态地看,你会看到新的机会仍然在不断涌现。

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值