有一个表(user_record),可能有百万条记录,大致内容如下:
no uid s
================
1 a 999
2 b 899
3 c 1234
4 a 1322
5 b 933
-----------------
uid可以重复。现在要做的是按‘s’倒序(desc)排,找出前10个不重复的uid记录,结果中要包括uid和s。
麻烦一点的做法是分两步来做:
SELECT distinct(uid) FROM user_record ORDER BY s DESC LIMIT 10
SELECT uid,s FROM user_record WHERE uid IN(Just Results)
如下是用一条语句来处理:
SELECT uid, MAX(s) max_s
FROM user_record
GROUP BY uid
ORDER BY max_s DESC
LIMIT 10
以上两个方法性能上差不多,一般我们会对uid做索引,所以速度还可以。但是如果这个表比较大的话,就会比较慢了。我试过,在有200万条记录的情况下大概需要7~8秒,300万条记录大概要10~11秒。还是要对整个表扫描的。
当然也有一个变通的方法,比如你确定这个s字段是相对独立的样本,我们可以取前100(或1000)条记录,再从中找出不重复的uid的记录
SELECT * FROM (SELECT uid,s FROM user_record
ORDER BY s DESC LIMIT 100) as tb
GROUP BY tb.uid
ORDER BY tb.s DESC
LIMIT 10
这个就会很快了,不过不能确保前100条中有10个不重复的uid