以文章浏览为例分析如何去除mysql完全重复的两行
问题描述
Views表:
Column Name | Type |
---|---|
article_id | int |
author_id | int |
viewer_id | int |
view_date | date |
此表无主键,因此可能会存在重复行。此表的每一行都表示某人在某天浏览了某位作者的某篇文章。请注意,同一人的 author_id 和 viewer_id 是相同的。
编写一条 SQL 查询来找出在同一天阅读至少两篇文章的人,结果按照 id 升序排序。
问题示例
Views table:
article_id | author_id | viewer_id | view_date |
---|---|---|---|
1 | 3 | 5 | 2019-08-01 |
3 | 4 | 5 | 2019-08-01 |
1 | 3 | 6 | 2019-08-02 |
2 | 7 | 7 | 2019-08-01 |
2 | 7 | 6 | 2019-08-02 |
4 | 7 | 1 | 2019-07-22 |
3 | 4 | 4 | 2019-07-21 |
3 | 4 | 4 | 2019-07-21 |
Result table:
id |
---|
5 |
6 |
问题求解
笨方法:
先通过select distinct * from Views
对原表去重,然后通过count(*)
计数,最后在最外层用distinct id
去重即可。
select distinct id
from (
select count(*) as cnt, viewer_id as id
from (
select distinct *
from Views
) as e
group by viewer_id, view_date
having cnt >= 2
) as t
order by id;
简便方法
用count(distinct article_id)
即可
select distinct viewer_id as id
from Views
group by view_date, viewer_id
having count(distinct article_id) >= 2
order by id;