SQL 随机抽取多条数据/ORDER BY RAND()优化

偶然打开以前的某个项目,发现代码里面有一个FIXME,写着此为临时方案,SQL存在性能隐患,需优化。这是一个在题库里随机抽题的SQL,采用的是ORDER BY RAND(),因为没有参与后续的迭代,今天把自己当时的思路记录一下。

主要还是因为网上关于这块的博文大多写的一样,没啥参考价值,所以才记录一下自己的想法,如有错误,恳请指正。

ORDER BY RAND() 为什么有性能问题

首先是RAND这个随机函数:我们都知道目前计算机世界里的随机,都是伪随机,所谓的随机数,都是按照一定的算法计算出来的。而这个计算过程其实对CPU是有一定占用的,尤其在随机数数量较大时,CPU的计算时间是很长的。

再有就是,ORDER BY RAND()在执行时会比普通的ORDER BY,多一个步骤,也就是会创建一个临时表(explain时可以看到Using temporary)。这个临时表会把查询出来的数据增加一列,也就是RAND列,把随机数的赋值进去。然后再生成sort_buffer中间表进行排序。

优化方式

个人认为,不同的业务场景对应不用的处理方式:

场景一:没有抽取条件限制,直接抽取
  1. 在业务代码里找到随机的id,以该id为起始抽取数据
int max = 数据表最大主键id;
int min = 数据表最小主键id;
int randId = (int)(Math.random() * (max - min)) + min;

SELECT * FROM table WHERE id >= randId LIMIT 数量;
  1. 直接使用SQL执行上述的思想
SELECT MAX(id), MIN(id) INTO @M, @N FROM table;
SET @R = FLOOR((@M - @N) * RAND() + @N);
SELECT * FROM table where id >= @R LIMIT 数量;
场景二:不允许抽取id连续的数据行

在业务代码层把需要的随机数据id都给算好,然后直接取

int max = 数据表最大主键id;
int min = 数据表最小主键id;
List<Integer> idList = new ArrayList<>(数量);
int i = 0;
while (i < 数量) {
    Integer randId = (int) (Math.random() * (max - min)) + min;
    if (!idList.contains(randId)) {
        idList.add(randId);
        i++;
    }
}

SELECT * FROM table where id IN idList;
场景三:需要根据不同的数据类型进行抽取

举个例子,从题库抽题,需要抽判断题10题,单选题10题,多选题10题

做法其实和上述的方法一样,只是在设计数据库时,做一些调整。

比如可以将主键设计得不连续,如按照数据的类型进行编号,判断题以101开头,单选题102,多选题103。

当然也可以把主键设置为联合主键,用smallint(类型)+int(编号)的方式。

### MyBatisPlus 实现随机查询两条数据的方式 在 MyBatisPlus 中实现随机查询两条数据的功能,可以通过自定义 SQL 查询来完成。以下是具体的实现方法: #### 方法一:基于 MySQL 的 `RAND()` 函数 MySQL 提供了一个内置函数 `RAND()` 可用于生成随机数。可以利用该函数配合 `LIMIT` 子句实现随机查询功能。 ##### 自定义 SQL 查询 可以在 Mapper 层通过 XML 或者注解的形式编写自定义 SQL 查询语句。例如,在 Java 代码中使用注解形式如下所示: ```java @Select("SELECT * FROM table_name ORDER BY RAND() LIMIT 2") List<YourEntity> selectRandomTwo(); ``` 上述代码表示从数据库表 `table_name` 中按照随机顺序排列并取出前两条记录[^3]。 如果需要动态传入参数或者更复杂的逻辑,则可以选择 XML 文件配置方式。XML 配置示例: ```xml <select id="selectRandomTwo" resultType="com.example.YourEntity"> SELECT * FROM table_name ORDER BY RAND() LIMIT #{limit} </select> ``` 调用时传递参数即可控制返回的数量。 --- #### 方法二:优化性能的随机查询方案 对于大数据量场景下,直接使用 `ORDER BY RAND()` 效率较低,因为它会对整个表进行排序操作。此时可采用其他替代策略,比如基于 ID 范围随机选取。 假设已知表中有连续递增的主键字段 `id`,则可通过以下步骤实现高效随机查询: 1. 获取表的最大和最小 `id` 值; 2. 使用随机算法计算两个符合条件的 `id`; 3. 根据这些 `id` 进行精确查询。 具体实现如下: ```java @Select(""" SELECT * FROM table_name WHERE id >= FLOOR(RAND() * ( (SELECT MAX(id) FROM table_name) - (SELECT MIN(id) FROM table_name) ) + (SELECT MIN(id) FROM table_name)) ORDER BY id ASC LIMIT 2 """) List<YourEntity> selectOptimizedRandomTwo(); ``` 此方法减少了全表扫描的压力,适合处理大规模数据集的情况[^5]。 --- #### 方法三:批量查询指定范围内的多条数据 当目标是从一组特定范围内随机抽取多个样本时,还可以借助集合操作符完成任务。例如,给定一系列可能存在的候选 `id` 列表 `[minId, maxId)` ,从中挑选任意数量的结果作为最终输出项之一。 下面是一个例子展示如何结合业务需求灵活调整查询条件: ```java @Test void testSelectRandomByRange(){ Random random = new Random(System.currentTimeMillis()); Long minId = baseMapper.getMinId(); // 假设有一个获取最小ID的方法 Long maxId = baseMapper.getMaxId(); // 同理最大ID Set<Long> candidateSet = IntStream.rangeClosed(0, 9).boxed().collect(Collectors.toSet()); // 构造候选池 List<Long> selectedIds = new ArrayList<>(); while(selectedIds.size()<2){ long randId = Math.abs(random.nextLong())%(maxId-minId)+minId; if(candidateSet.contains(randId)){ selectedIds.add(randId); candidateSet.remove(randId); // 移除已经选过的值避免重复 } } List<YourEntity> entities = yourDao.selectBatchIds(selectedIds); // 批量加载对应实体对象 } ``` 这里采用了程序端生成随机索引后再交由框架执行实际读取动作的设计思路[^4]。 --- ### 性能对比与适用场景分析 | **特性** | **`ORDER BY RAND()` 方案** | **基于 ID 范围随机抽样方案** | |-------------------|-----------------------------------------------|--------------------------------------------| | **优点** | 编写简单直观 | 对于大表更加友好 | | **缺点** | 当数据规模增大时效率急剧下降 | 需要额外维护主键分布信息 | | **最佳应用场景** | 小型项目或测试环境 | 生产环境中涉及海量数据存储 | 综上所述,针对不同情况应选用合适的解决方案以满足应用层面的需求平衡开发成本同运行效能之间的关系。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值