数据分析技术在审计中的应用(一)- 学习笔记

本文介绍了大数据审计的概念,强调了数据式审计与大数据审计的区别,并探讨了本福特定律和信息熵在审计中的应用。通过理论学习,阐述了本福特定律的起源和验证,以及信息熵在识别骗保行为中的作用。实战部分涉及验证本福特定律、计算购药金额信息熵以及购药者排序等实际操作。
摘要由CSDN通过智能技术生成

一、理论学习

(一)概念理解

    1. 数据式审计不是大数据审计。如果直接用SQL查询就能解决的问题,严格来讲不属于大数据审计。

    2. 大数据时代,各单位、部门的数字化程度越来越高,数字越来越完备,SQL查询的计算机审计将更有作为。

    3. 严格的大数据审计包括以下三个课题:

        (1)使用计算框架解决单台计算机计算能力不足的问题;

        (2)对非结构化的数据进行采集、分析、处理、解决非结构化数据转为结构化数据的问题;

        (3)对接数据挖掘算法,解决审计线索的发现难题。

(二)本福特和他的发现

    1. 本福特(Frank Benford,1883~1984)是一位美国电气工程师。工作中,他注意到自己所使用的对数表的书前面几页比后面几页的磨损程度更为严重,而前面页对应的是首位数字较小的数。受此现象启发,本福特推论首位数字较小的数在日常生活中会更频繁地用到。

    2. 为了验证自己得到的猜想,他从包括河流面积、人口统计、分子及原子重量、物理常数等多种来源中采集了20000多个随机数字。发现,大约31%的数字首位数是1,19%的数字首位数是2,越往后频率越低,首位数是9的数字只占5%。

    3. 可以证明,当数字自然地产生(不人为设置最大值或最小值)时,大量数字的首位数的确具有某种内在规律性。

 (三)“信息熵”及其应用

    1. 信息熵(Information Entropy)是度量信息混乱程度的指标,越混乱值越大,越存粹越接近于0.利用信息熵可以审计“参保人员购药骗保”。

    2. 基于假设:不法分子倾向于在医保最高限额下,从多家不同药店和医院购买不同药物用于贩卖。因此,其购药行为特点是所关联的药店和医院数量多,且金额趋向于平均。

    3. 可见,若要有效锁定不法分子,不能仅仅看消费总额,还要看消费方式。信息熵提供了这样一种度量方式,购药金额信息熵高的人存在较高嫌疑。

    信息熵计算公示如下,其中p表示概率:

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值