原创,转载请注明出处!
postgresql取随机记录有以下几种方式,请参阅:
http://blog.chinaunix.net/uid-20332519-id-5616589.html
另一种相对简单的算法如下:
explain (analyze,verbose,costs,buffers,timing)
select * from 表名 where 主键=ANY((
with cte as(
select ( (random() * (max_id - min_id))::bigint + min_id ) as id from generate_series(1,50) as tmp2,
(select max(主键) as max_id,min(主键) as min_id from 表名) as tmp1
) select array_agg(id) from cte
)::bigint[]) limit 10;
其中generate_series(1,50)获取50行目的是防止最小编号和最大编号之间有删除记录的情况,如果被删除的记录比较多,主键不连续,可适当加大generate_series(1,100).
主键只支持int和bigint类型,其它类型未测试.
总数据量约为4亿时,随机获取10条记录的执行计划和执行时间:
注意:取随机记录sharead_buffer命中率比较低,大多数情况下都会读取磁盘(随机读方式)