linux从文件中distinct,DISTINCT选取多个字段，只DISTINCT一个字段的解决办法

最新推荐文章于 2024-03-27 11:00:13 发布

前行者林工

最新推荐文章于 2024-03-27 11:00:13 发布

阅读量656

点赞数

文章标签： linux从文件中distinct

此文是根据原作者所著加上自己的理解总结出来的，如果有什么问题欢迎各位提出一起交流探讨。先贴出原文如下：

某前台sql语句，简化后如下

SELECT products_name,products_viewed FROM `products_description`

ORDER BY products_viewed DESC,products_name LIMIT 0,20;

该语句经常大批量出现在慢日志中！

初步看改语句，非常简单，根据products_viewed(产品被查看次数)倒序排序，再根据products_name(产品名字)排序！在products_viewed和products_name上分别建立有索引！

但是感觉products_name排序怪怪的！

explain后发现

+----+-------------+----------------------+------+---------------+------+---------+------+-------+----------------+

+----+-------------+----------------------+------+---------------+------+---------+------+-------+----------------+

+----+-------------+----------------------+------+---------------+------+---------+------+-------+----------------+

改语句做竟然全表扫描！

mysql的order by语句，如果在where条件中没有合适的索引选择时，将会选择order by col中的索引作为条件，但是如果是多个order by组合，将会导致放弃使用索引！

和开发以及需求沟通，发现通过名字排序是可以不需要的！

我们去掉order by后面的 products_name!

再次explain后发现已经能够使用索引:

explain SELECT products_name,products_viewed FROM `products_description`

ORDER BY products_viewed LIMIT 0,20;

+----+-------------+----------------------+-------+---------------+-----------------+---------+------+------+-------+

+----+-------------+----------------------+-------+---------------+-----------------+---------+------+------+-------+

+----+-------------+----------------------+-------+---------------+-----------------+---------+------+------+-------+

再次对比两次profiling(过程省略)，发现第一次损坏大量io和cpu时间Sorting result上！因为该语句为前台语句，有大量查询，优化后，页面打开速度明显提升！

注意：

1. order by m,n 不要轻易写这种语句，一般的order by前面的m才是order by的重点，后面的n为配角，如果没有必要，尽量去掉

2. 参考我的另一篇 http://www.linuxidc.com/Linux/2014-03/98549.htm

之后我发现order by 后面的字段如果是前面select语句没有查询的话，会出现某些无法预料的结果。现将我两次查询的结果贴在下面，暂时还不知道出现这种情况的原因。

第一次查询，select了order by 后面的字段，结果截图如下：

第二次查询，order by 后面的字段并没有跟在select后面，结果截图如下：

两次查询的结果完全不同，使用DISTINCT语句并没有出现预期出现的结果：即取出唯一的第一列数据A以及跟此列相关联的列数据B。而不是将A、B两列数据都是DISTINCT。查阅相关论坛终于发现可以用select A，B，count(*) from tablename group by A having B>=1 来实现需求。但是问题又来了，这样查询的速度比较慢，因为涉及分类计数等，我用下面的SQL语句查询两张20w级别的表，执行一次所需的时间为6s左右。所查询的相关列都已建立索引。

后来想到数据库应该只执行查找，存取数据的功能，其余交给后台来执行，于是建立了一张新表，伪外键的形式解决了问题。SQL如下：

CREATE TABLE relation AS (select `litigationinfo`.`org-name` AS A, max(`litigationinfo`.`release-time`) AS B,count(DISTINCT `litigationinfo`.`org-name`) AS C from `litigationinfo`,`enterpriseinfo` where `litigationinfo`.`org-name` = `enterpriseinfo`.`org-name` group by A having C=1 order by B desc);

为进一步增加查询速度，可建立索引：

ALTER TABLE `relation` ADD PRIMARY KEY ( `A` ) ;

ALTER TABLE `relation` ADD INDEX relation_index_2 ( `B` )

前行者林工

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
linux从文件中distinct,DISTINCT选取多个字段，只DISTINCT一个字段的解决办法

此文是根据原作者所著加上自己的理解总结出来的，如果有什么问题欢迎各位提出一起交流探讨。先贴出原文如下：某前台sql语句，简化后如下SELECT products_name,products_viewed FROM `products_description`ORDER BY products_viewed DESC,products_name LIMIT 0,20;该语句经常大批量出现在慢日志中！...
复制链接

扫一扫