2.9 随机抽样
在审计或IT审计中,常常使用抽样,也就是对具有审计相关性的总体中低于百分之百的项目实施审计程序,使所有抽样单元都有被选取的机会,为注册会计师针对整个总体得出结论提供合理基础。简单来说,就是我们需要从总体中选出一些样本,通过对样本的检查,得出结论,再推导出总体的结论。
在Excel中或一些软件中,我们可以非常容易在数据中抽样,但当数据量超过Excel表最大限制时或数据很大时,我们需要在数据库中处理,那么如何用SQL抽样,就是我们应该掌握的。本节我们介绍随机抽样的三种方法,数据仍采用2.6节中APP数据集里AppleStore表作为讲解示例。首先,我们通过
select count(*) from AppleStore
求出表中有7142条数据,假设我们需要随机抽样出100条数据。
「方法一」
select * from AppleStoreorder by rand()limit 100;
解释:
rand()
函数会产生0-1之间的随机数,
order by rand()
根据产生的随机数进行排序。
limit 100
截取前100行数据。从而达到随机抽样100条数据的目的。当然如果需要抽样出N条数据就使用
limit N
。即:
select * from 表名order by rand()limit N;
需要注意的是,虽然这是最简单的方法,并且在数据较小的表执行速度较快,但是当数据较大的时候,查询速度就会较慢。
「方法二」