邦弗朗尼原理--出自互联网大规模数据挖掘与分布式处理一书

在数据随机性假设的基础上,可以计算所寻找事件出现次数的期望值。如果该结果显著高于你所希望找到的真正实例的数目,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,它们是在统计上出现的假象,而不是你所寻找事件的凭证。

假设我们确信在某个地方有一群恶人,目标是把他们揪出来。再假定我们有理由相信,这些
恶人会定期在某个宾馆聚会来商讨他们的作恶计划。为限定问题的规模,我们再给出如下假设:
(1) 恶人数目可能有10亿;
(2) 每个人每100天当中会有一天去宾馆;
(3) 一个宾馆最多容纳100个人。因此,100 000个宾馆已足够容纳10亿人中的1%在某个给定
的日子入住宾馆;
(4) 我们将对1000天的宾馆入住记录进行核查。
为了在上述数据中发现恶人的踪迹,我们可以找出那些在两个不同日子入住同一宾馆的人。
但是假设并没有恶人,也就是说,给定某一天,对每个人来说,他们都是随机地确定是否去宾馆
(概率为0.01),然后又是随机地从105个宾馆中选择一个。从上述数据中,我们能否推断出某两个
人可能是恶人?
接下来我们做个简单的近似计算。给定某天,任意两个人都决定去宾馆的概率为0.000 1,而
他们入住同一宾馆的概率应该在0.000 1基础上除以10^5(宾馆的数量)。因此,在给定某天的情况
下,两个人同时入住同一宾馆的概率是10^-9。而在任意给定的不同的两个日子,两人入住同一宾
馆的概率就是10^-9的平方,即10^-18。需要指出的是,上述推理中只需要两人两次中每次住的宾馆
相同即可,并不需要两次都是同一家宾馆①。
基于上述计算,我们必须要考虑到底事件出现多少次才意味着作恶事件的发生。上例中,“事
件”的含义是指“两个人在两天中的每一天入住相同宾馆”。为简化数字运算,对于较大的n,(n,2)
大概等于n2/2。下面我们都采用这个近似值。因此在10^9中的人员组对个数为(10^9, 2)=5×10^17,而
在1000天内任意两天的组合个数为
(1000,2) =5×10^5。疑似作恶事件的期望数目应该是上述两者的
乘积再乘上“两个人在两天中的每一天入住相同宾馆”的概率,结果为
5 × 1017 × 5 × 105 × 10^-18 = 250 000
也就是说,大概有25万对人员看上去像恶人,即使他们根本不是。
现在假定实际上只有10对人员是真正的恶人。警察局需要调查25万对人员来寻找他们。除了
会侵犯近50万无辜人们的生活外,所需的工作量非常大,以至于上述做法几乎是不可行的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值