巧用group by替代 distinct【记录一次sql之旅】

最新推荐文章于 2021-05-11 17:51:08 发布

weixin_33806914

最新推荐文章于 2021-05-11 17:51:08 发布

阅读量2.9k

点赞数 1

文章标签：数据库大数据 python

原文链接：https://my.oschina.net/weechang93/blog/879026

版权

2019独角兽企业重金招聘Python工程师标准>>>

今天在公司的时候遇到一个问题，有如下图所示的一张通话记录表

要求统计每个人，每天所接的每种类型的电话进行一个时间统计。如果遇到有u_id,s_code,date.三列重复的，只统计id值最大的那条记录，即图中id为1，2的两条记录，只统计id为2的那条记录。

这个逼狗的需求让我犯难了，谁让我是一个写代码的，不是一个写sql的呢，平时接触到的都是简单的crud，join的sql。突然来个这种需求的有点犯难了。

刚开始想的是使用distinct，去重嘛。但是要取id最大那个，怎么办瞬间无解。然后求助公司的sql小哥，小哥一看表，一听需求，就说。你可以将三个字段来个group by，然后order by id，然后取个max。
一听sql小哥的话，让我豁然开朗。顿时开始实施。最后sql结果如下

select * from record where id in( select max(id) from record group by u_id, s_code, date) 瞬间解决了我的问题。感谢sql小哥。

ps：该通话记录根据时间进行了分表处理，同时，该统计只针对一天的通话记录做统计，所以对于in的性能问题不用太过担心。当然，具体问题，具体处理。

事后仔细对问题进行了一些总结。该问题其实可以拆分出两部分进行思考。

1.首先是对u_id,s_code,date进行去重处理，大部分人想到的应该都是distinct。但是此处呢，情况比较特殊，使用group by也能达到同样的效果。

2.统计id最大的那条数据，使用max()函数即可。

后来对distinct和group by也做了一些深入的了解。比如下面这篇文章。

http://www.cnblogs.com/zox2011/archive/2012/09/12/2681797.html

不管怎么说，遇问题多思考，多记录自己遇到的问题。

转载于:https://my.oschina.net/weechang93/blog/879026

weixin_33806914

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
巧用group by替代 distinct【记录一次sql之旅】

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。