自然界与社会生活中存在各种各样性质迥异的幂律分布现象。
1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系,这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用.实际上,包括汉语在内的许多国家的语言都有这种特点。
19世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20法则,即20%的人口占据了80%的社会财富.个人收入X不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系,即为Pareto定律。
Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布;还有其它形式的幂律分布,像名次—规模分布,规模—概率分布,这四种形式在数学上是等价的。
幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。
实际上,幂律分布广泛存在于物理学,地球与行星科学,计算机科学,生物学,生态学,人口统计学与社会科学,经济与金融学等众多领域中,且表现形式多种多样.在自然界与日常生活中,包括地震规模大小的分布(古登堡-里希特定律),月球表面上月坑直径的分布,行星间碎片大小的分布,太阳耀斑强度的分布,计算机文件大小的分布,战争规模的分布,人类语言中单词频率的分布,大多数国家姓氏的分布,科学家撰写的论文数的分布,论文被引用的次数的分布,网页被点击次数的分布,书籍及唱片的销售册数或张数的分布,每类生物中物种数的分布,甚至电影所获得的奥斯卡奖项数的分布等,都是典型的幂律分布。以网页被点击次数的分布为例,尽管中国向七千九百万网民提供的网站接近六十万个,但只有为数不多的网站,才拥有网民一次访问难以穷尽的丰富内容,拥有接纳许多人同时访问的足够带宽,进而有条件演化成热门网站,拥有极高的点击率,像新浪,搜狐,网易等门户网站。网页被点击次数的幂律分布其幂指数在0.60-1.03之间,而网站访问量的幂律分布其幂指数则接近1。
统计物理学家习惯于把服从幂律分布的现象称为无标度现象,即系统中个体的尺度相差悬殊,缺乏一个优选的规模。可以说,凡有生命的地方,有进化,有竞争的地方都会出现不同程度的无标度现象。
如何处理Power-law(幂律)分布的数据?
1
。比如两个自变量
IV1
和
IV2
都是高度偏态,在对其进行对数变换后转化为正态。但是
IV1
和
IV2
可能对因变量
DV
存在交互影响,
那么在检测交互影响的时候
interaction term
是应该用
lnIV1*lnIV2
么?因为这里有个疑问是
lnIV1+lnIV2=ln
(
IV1*IV2
),如果
lnIV1
和
lnIV2
进入后
R Squared Change
显著的话是不是就代表已经存在交互影响了么?还需要继续进入
lnIV1*lnIV2
么?对这个问题我感觉有点钻到牛角尖里了,想了很久都不太清楚?
2
。另外是关于前面
0
值太多的自变量
(单峰非正态),有点类似于
medical research
里面的
account variable
,
0
代表没发生,但他们是自变量,而不是因变量,
所以感觉不能用
Logistic
回归。
我试着用了
log
之类的转换,
很难变成正态分布,目前我将其转换成了
dummy variable 0
和
1
做了一个
model
,然后再选择所有不为
0
的
obsevation
做了一个
model
,但这样做得结果不是很理想。请问是否有一些特殊转换处理这方面的数据呢?
问题一较简单:交互影响模型中的自变量是否可以取对数?答案是肯定的。因为在你的模型
Y = b0 + b1ln
(
IV1
)
+ b2ln
(
IV2
)
+ b3ln
(
IV1
)
ln
(
IV2
)
中的右边前两项,即
IV1
和
IV2
各有一个回归系数
b1
和
b2
,所以它们不会被约简为另一个
b3ln
(
IV1
)
ln
(
IV2
)
。
同理,模型右边第三项
b3ln
(
IV1
)
ln
(
IV2
)
简约后成为
b3
(
IV1 + IV2
),也不等同于前两项
b1ln
(
IV1
)
+ b2ln
(
IV2
)。当然,第三项的变量
(
IV1 + IV2
中的联合分布比
IV1
和
IV2
原先的独立分布更加不对称,即更加偏离正态分布。但是,据我的理解,当你将
ln
(
IV1
)
ln
(
IV2
)
输入
OLS
回归时,计算程序是将
ln
(
IV1
)
ln
(
IV2
)
当做一个值处理而不会将它分析成
IV1 + IV2
的。
问题二很复杂:如何处理服从
power-law
(幂律)分布的数据?这种分布特征的数据,具有很多个最小值、而这些最小值由于受到某种机制的限制而无法再往更小的方向延伸(
left-censored
),而全部堆积在一起。也有人称其为
"floor effects”
(
“
地板效应
”
)数据(如下图
a
)。初看,这些最小值(本例是
1
)堆起来不像是地板效应、而像
“ceiling effects”
(
“
天花板
”
效应)。但如果将图
a
作
90
度旋转,就可以理解
“
地板
”
的意思。当然,这种分布的反面,即一组数据中有很多个无法更大的最大值(
right-censored values
),就是
“
天花板
”
了。
以上图
a
中的
X
,按三个不同的幂律值(
1
、
2
、
4
)而形成三种不同的
“
地板
”
分布(即
P
(
X
)
=X-1
、
P
(
X
)
=X-2
、和
P
(
X
)
=X-4
。具体说来,当幂律
=-1
时,
X
的最小值占了总体的
19%
;当幂律
=-2
时,
X
的最小值占了总体的
61%
;而当当幂律
=-3
时,
X
的最小值占了总体的
92%
!在经典的
“
正态分布世界
”
(
the world of normal distribution
)
里,我们都是用
log
来转换服从幂律分布的数据。以下图
b
就是对图
a
中的三组
X
用
log
转换以后的分布形状:
与图
a
相比,图
b
中的三种分布的形状不那么
“
地板
”
了,但是还远远不是正态分布的。如果将
X
的频数(即
P
(
X
))也作
log
转换,即得到一个单调递减的线性分布
图
c
也不是正态分布。但在
“
正态世界
”
里,线性分布是我们对付幂律数据的(相对)最好方法了;就是说,幂律分布的数据永远不可能转换为正态的。真的没有其它方法了吗?有,那就要离开正态世界而进入
“
变态世界
”
(
the world of abnormality
)、做一个研究
“
变态行为
”
的
“
变态学者
”
。
“
变态
”
这个字太刺眼。做
“
变态研究
”
的绝大多数是拘谨的物理学家,当然无法承受世俗的歧视,所以将变态世界叫做
“
复杂系统
”
(
complex system
)。我一开始说
“
这个问题很复杂
”
,意思就是
“
这是一个复杂世界的问题
”
。当然,复杂系统也不能点石为金,将幂律分布数据变成正态分布数据、而是用整个一套完全不同的思想和方法来看变量的分布和变量之间的关系。(参见
A. Clauset
,
C.R. Shalizi
,
and M.E.J. Newman
,
"Power-law distributions in empirical data" SIAM Review
,
2009
)。
可以试试以下几种方法:一、对
X
取
log
之后、再取
log
(当然,如果
log
(
X
)有非正值、需要先对其做线性转换成正值);二、将
X
转换成
0-1
值的
dummy variable
后直接进入模型(而不是用来分拆成两个模型);三、将
X
与其他相关的自变量合成新的变量;等等。注意,上述任何一种方法都不会产生正态分布、所以其结果都是差强人意的。