第一数字定律识别数据作假

本文介绍了第一数字定律,即本·福特定律,它揭示了在大量自然产生的数据中,数字出现的频率模式。这个定律可以用于检测数据作假,如瑞幸咖啡的财务造假案例所示。通过分析数据是否符合定律,可以识别出数据的真实性。此外,文章还提到了用此方法可能检测社交媒体上的虚假粉丝数,并提及了邓巴数理论,即人类的社交网络稳定人数大约为150人。
摘要由CSDN通过智能技术生成

这两天和同事们聊数据作假的问题,前有蔡徐坤一亿转发量,后有瑞幸财务造假。我发现还是有很多人不知道怎么运用数学的魅力来解决一些数据造假问题,其实有一个完美的工具——“第一数字定律”被广泛用于甄别数字作假。

“第一数字定律”,又称“本·福特定律”(但其实纽康是首位发现者),是指:只要统计的样本足够多,同时数据没有特定的上限和下限,那么数据中以1为开头的数字出现的频率是30.10%,而以2为首的数字出现的频率为17.60%,以3打头的数字出现的频率为12.50%……首位数越大出现的频率依次减少,9出现的频率最低,只有4.60%。符合概率公式: P(n)=logd(1+ 1/n),其中d取决于数据使用的进位制,对十进制数据而言,d=10。

这个定律常用来分析数据作假,只要数据非人为规定的规律的,属于跨越几个量级的,在数量足够大的情况下就基本符合该定律。

美国华盛顿州曾侦破过一个当时最大的投资诈骗案,金额高达1亿美元。诈骗主谋凯文·劳伦斯及其同伙,从投资者手中筹集了大量资金,挪用公款来享乐。为了掩饰他们的不法行为,他们人为做假账。当时就有一位会计师感觉不对头,他将七万多个与支票和汇款有关的数据收集起来,将这些数据首位数字发生的概率与本福特定律相比较,发现这些数据通过不了本福特定律的检验。最后经过了3年的司法调查,终于拆穿了这个投资骗局。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值