在一数据集中(需要满足一定条件),提取每个数据的首位数字i (i = 1, 2, 3, 4, 5, 6, 7, 8, 9), 发现P(i)并不是1/9, 而是呈现出这样一个规律: P(i) = log10(x + 1) - log10(x). 这就是Benford law, 这也太奇怪了,但很多数据集的确满足或者近似满足Benford law. 下面是matlab计算出的结果: P(i = 1, 2, ..., 9) =0.3010 0.1761 0.1249 0.0969 0.0792 0.0669 0.0580 0.0512 0.0458. 视频中有很多数据,目前,很多学者在视频分析中找到了Benford law的应用.
以上结果真实太神奇了,1, 2, 3, ... , 9的分布居然不均匀.下面给出一个简单的验证: (验证结果在一定程度上受数据集影响. 以后如果有更多的数据集,将会补上更多的验证.)
#include<iostream>
#include<ctime>
using namespace std;
int getFirstDigit(int n)
{
int x;
while(n)
{
x = n % 10;
n /= 10;
}
return x;
}
int main()
{
srand(time(NULL));
float a[10];
memset(a, 0, sizeof(a));
int i, n = 100000;
for(i = 0; i < n; i++)
a[getFirstDigit(rand())]++; // rand函数产生的不一定是比较好的数据集
for(i = 1; i < 10; i++)
a[i] /= n;
for(i = 1; i < 10; i++)
cout << a[i] << endl;
return 0;
}
结果为:
0.34125
0.33774
0.11869
0.03349
0.03466
0.0348
0.03364
0.03308
0.03265
上述结果显示,总体趋势是符合Benford law的,但数据集的确对最后的结果有一定的影响, 上述的rand函数产生的不一定是比较好的数据集.