Leetcode SQL问题汇总

Leetcode SQL问题总结


SQL语句用于操作各类数据库,但是如果仅仅只是看SELECT,UPDATE,CREATE,DELETE等手册上边的语法,根本就学不会SQL语句。所以这里设法把leetcode上边的数据库相关的问题进行总结分类,以进一步学习和熟悉SQL语句。SQL语句用来处理某些常用问题,有些不明显,而且显得有些难以思考和解决。

多个表连接查询问题

在查询数据库表条目的时候,有时候需要从多张表中汇总信息,这个时候就需要使用到SQL的JOIN语句。JOIN是对表做连接操作,有LEFT JOIN,RIGHT JOIN和INNER JOIN等。左右连接的差别只是在ON条件表达式中不满足的时候,保留左表还是右表的数据而已。

组合两张表

表1: Person
+-------------+---------+
| 列名         | 类型     |
+-------------+---------+
| PersonId    | int     |
| FirstName   | varchar |
| LastName    | varchar |
+-------------+---------+
PersonId 是上表主键
表2: Address
+-------------+---------+
| 列名         | 类型    |
+-------------+---------+
| AddressId   | int     |
| PersonId    | int     |
| City        | varchar |
| State       | varchar |
+-------------+---------+
AddressId 是上表主键
编写一个 SQL 查询,满足条件:无论 person 是否有地址信息,都需要基于上述两表提供 person 的以下信息:
FirstName, LastName, City, State

如上所示是一个连接表的问题,因为需要person不管有没有地址信息都要显示,所以可以使用左连接:

SELECT FirstName, LastName, City, State FROM Person 
    LEFT JOIN Address ON Person.PersonId=Address.PersonId;

如果使用右连接,也是可以的:

SELECT FirstName, LastName, City, State FROM Address 
    RIGHT JOIN Person ON Person.PersonId=Address.PersonId;

SELECT的表列可以来自多张表,而且可以不断使用JOIN语句进行拼接。

超过经理收入的员工

JOIN语句也可以配合WHERE来进一步约束查询,同时也可以自己和自己连接

Employee 表包含所有员工,他们的经理也属于员工。每个员工都有一个 Id,此外还有一列对应员工的经理的 Id。
+----+-------+--------+-----------+
| Id | Name  | Salary | ManagerId |
+----+-------+--------+-----------+
| 1  | Joe   | 70000  | 3         |
| 2  | Henry | 80000  | 4         |
| 3  | Sam   | 60000  | NULL      |
| 4  | Max   | 90000  | NULL      |
+----+-------+--------+-----------+
给定 Employee 表,编写一个 SQL 查询,该查询可以获取收入超过他们经理的员工的姓名。在上面的表格中,Joe 是唯一一个收入超过他的经理的员工。
+----------+
| Employee |
+----------+
| Joe      |
+----------+

上边的问题,可以使用如下的语句来查询:

SELECT E1.Name FROM Employee E1
    LEFT JOIN Employee E2
ON E1.ManagerId=E2.Id WHERE E1.Salary > E2.Salary;

从不订购的客户

某网站包含两个表,Customers 表和 Orders 表。编写一个 SQL 查询,找出所有从不订购任何东西的客户。
Customers 表:
+----+-------+
| Id | Name  |
+----+-------+
| 1  | Joe   |
| 2  | Henry |
| 3  | Sam   |
| 4  | Max   |
+----+-------+
Orders 表:
+----+------------+
| Id | CustomerId |
+----+------------+
| 1  | 3          |
| 2  | 1          |
+----+------------+
例如给定上述表格,你的查询应返回:
+-----------+
| Customers |
+-----------+
| Henry     |
| Max       |
+-----------+

这个问题,有个Exclude的操作在里边,需要筛选所有的Id不在另外一个表的行。由于我们知道表连接的时候,不满足的时候会有NULL的列,所以可以利用左连接,然后判断是否为NULL:

SELECT t.Name FROM
    (SELECT Name, CustomerId FROM Customers
        LEFT JOIN
     Orders ON Customers.Id=Orders.CustomerId) t
 WHERE t.CustomerId IS NULL;
# 在SQL里边,判断是不是NULL不能使用=符号

顺序问题

数据库表查询,很多时候需要获取那一列排第几的行,这个时候可以利用SQL的LIMIT,OFFSET以及ORDER BY语句。

第二高的薪水

比如下边这个问题,需要获取第二高的元素,这个时候结合DESC降序排列即可:

编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。
+----+--------+
| Id | Salary |
+----+--------+
| 1  | 100    |
| 2  | 200    |
| 3  | 300    |
+----+--------+
例如上述 Employee 表,SQL查询应该返回 200 作为第二高的薪水。如果不存在第二高的薪水,那么查询应返回 null。
+---------------------+
| SecondHighestSalary |
+---------------------+
| 200                 |
+---------------------+

解答:

SELECT Salary FROM Employee ORDER BY Salary DESC LIMIT 1 OFFSET 1;

第N高的薪水

获取表的某一列排序后的任一行都是可以的,比如如下问题:

编写一个 SQL 查询,获取 Employee 表中第 n 高的薪水(Salary)。
+----+--------+
| Id | Salary |
+----+--------+
| 1  | 100    |
| 2  | 200    |
| 3  | 300    |
+----+--------+
例如上述 Employee 表,n = 2 时,应返回第二高的薪水 200。如果不存在第 n 高的薪水,那么查询应返回 null。
+------------------------+
| getNthHighestSalary(2) |
+------------------------+
| 200                    |
+------------------------+

可以使用一个SQL函数来实现获取排序后的任意位置的行,而且在SQL函数里边可以使用DECLARE和SET来设置变量:

CREATE FUNCTION getNthHighestSalary(N INT) RETURNS INT
BEGIN
  DECLARE C int;  # SQL函数里边定义变量的格式
  SET C=N-1;  # 给SQL函数内变量赋值的语法
  RETURN (
      # Write your MySQL query statement below.
      SELECT IFNULL((SELECT DISTINCT(Salary) FROM Employee
        ORDER BY Salary DESC LIMIT 1 OFFSET C), NULL)
  );
END

分数排名

编写一个 SQL 查询来实现分数排名。如果两个分数相同,则两个分数排名(Rank)相同。请注意,平分后的下一个名次应该是下一个连续的整数值。换句话说,名次之间不应该有“间隔”。
+----+-------+
| Id | Score |
+----+-------+
| 1  | 3.50  |
| 2  | 3.65  |
| 3  | 4.00  |
| 4  | 3.85  |
| 5  | 4.00  |
| 6  | 3.65  |
+----+-------+
例如,根据上述给定的 Scores 表,你的查询应该返回(按分数从高到低排列):
+-------+------+
| Score | Rank |
+-------+------+
| 4.00  | 1    |
| 4.00  | 1    |
| 3.85  | 2    |
| 3.65  | 3    |
| 3.65  | 3    |
| 3.50  | 4    |
+-------+------+

这个问题,需要在对分数进行排序后,在加上额外的排名信息,分数可以重复,同时排名是连续的,排名不是表里边的列,所以需要额外创建一些只读列,用于读取信息,这个可以利用SQL的子查询语句:

SELECT A.Score, 
    (SELECT COUNT(DISTINCT(Score)) FROM
        Scores WHERE Score >= A.Score) AS Rank
FROM Scores A ORDER BY Score DESC;

需要对比临近行的问题

有些SQL问题,需要获取一些相邻行的信息,然后才能决定是否取出这些行。

编写一个 SQL 查询,查找所有至少连续出现三次的数字。
+----+-----+
| Id | Num |
+----+-----+
| 1  |  1  |
| 2  |  1  |
| 3  |  1  |
| 4  |  2  |
| 5  |  1  |
| 6  |  2  |
| 7  |  2  |
+----+-----+
例如,给定上面的 Logs 表, 1 是唯一连续出现至少三次的数字。
+-----------------+
| ConsecutiveNums |
+-----------------+
| 1               |
+-----------------+

上边的问题可以通过定义SQL语句中的临时变量来解决。实际上上边这个问题,可以看作是一个原型问题,也就是获取一系列满足条件的连续行问题。不过目前来看,似乎没有通用的解法,只能根据具体的问题处理:

# 定义临时变量记录重复的值的计数
SELECT DISTINCT(t.Num) AS ConsecutiveNums FROM
    (SELECT log.Num AS NUM, (
        CASE WHEN @prev=log.Num
        THEN @cnt:=@cnt+1
        WHEN @prev:=log.Num
        THEN @cnt:=1
        ELSE @cnt:=1 END
    ) AS cnt FROM (SELECT @prev:=NULL)p, (SELECT @cnt:=0)c, Logs log) t
WHERE t.cnt >= 3;

以前不知道,其实在SQL语句里边也可以定义临时变量,就是使用形如(SELECT $a:=0)这种获取临时表信息的方式,而且在SQL里边由于使用了=好作为布尔判断,所以定义了:=作为赋值操作符!对于任意SQL的临时表而言,都需要给出一个alias命名,这是上边给出名称的原因。

分组聚合问题

在SQL问题里边,很多时候都需要根据表中某些列的具体取值来分组,然后统计每一组的信息,在一些简单问题里边,可以直接使用GROUP BY和一些聚合函数来实现需求。

查找重复的电子邮箱

编写一个 SQL 查询,查找 Person 表中所有重复的电子邮箱。
示例:
+----+---------+
| Id | Email   |
+----+---------+
| 1  | a@b.com |
| 2  | c@d.com |
| 3  | a@b.com |
+----+---------+
根据以上输入,你的查询应返回以下结果:
+---------+
| Email   |
+---------+
| a@b.com |
+---------+
说明:所有电子邮箱都是小写字母。

获取重复的行,这个需求也很普遍,其实就是对需要计算重复的列进行分组聚合即可:

SELECT Email FROM Person GROUP BY Email HAVING COUNT(Email) > 1;

HAVING即可以放到SELECT后边,也可以放到GROUP BY后边,COUNT本身就是个聚合函数。

删除重复的电子邮箱

编写一个 SQL 查询,来删除 Person 表中所有重复的电子邮箱,重复的邮箱里只保留 Id 最小 的那个。
+----+------------------+
| Id | Email            |
+----+------------------+
| 1  | john@example.com |
| 2  | bob@example.com  |
| 3  | john@example.com |
+----+------------------+
Id 是这个表的主键。
例如,在运行你的查询语句之后,上面的 Person 表应返回以下几行:
+----+------------------+
| Id | Email            |
+----+------------------+
| 1  | john@example.com |
| 2  | bob@example.com  |
+----+------------------+

删除重复的表项,可以使用表连接语法:

DELETE p1 FROM Person p1 LEFT JOIN Person p2 ON p1.Id > p2.Id WHERE p1.Email = p2.Email;

或者也可以:

DELETE p1 FROM Person p1, Person p2 WHERE p1.Id > p2.Id AND p1.Email = p2.Email;

虽然这个问题看起来也是分组问题,只不过由于需要具体的Id,而且分组本身是为了查询,所以使用分组获取得到的

部门工资最高的员工

Employee 表包含所有员工信息,每个员工有其对应的 Id, salary 和 department Id。
+----+-------+--------+--------------+
| Id | Name  | Salary | DepartmentId |
+----+-------+--------+--------------+
| 1  | Joe   | 70000  | 1            |
| 2  | Henry | 80000  | 2            |
| 3  | Sam   | 60000  | 2            |
| 4  | Max   | 90000  | 1            |
+----+-------+--------+--------------+
Department 表包含公司所有部门的信息。
+----+----------+
| Id | Name     |
+----+----------+
| 1  | IT       |
| 2  | Sales    |
+----+----------+
编写一个 SQL 查询,找出每个部门工资最高的员工。例如,根据上述给定的表格,Max 在 IT 部门有最高工资,Henry 在 Sales 部门有最高工资。
+------------+----------+--------+
| Department | Employee | Salary |
+------------+----------+--------+
| IT         | Max      | 90000  |
| Sales      | Henry    | 80000  |
+------------+----------+--------+

这个问题就是依据某列来分组,然后获取每一组中的最大值,获取一组中的最大值有个聚合函数MAX,所以这个问题可以:

SELECT t.Department AS Department, em.Name AS Employee, t.Salary AS Salary FROM
    (SELECT D.Name AS Department, D.Id AS DId, MAX(E.Salary) AS Salary FROM Employee E
        LEFT JOIN 
    Department D ON E.DepartmentId=D.Id GROUP BY E.DepartmentId) t,
Employee em WHERE t.DId=em.DepartmentId AND t.Salary=em.Salary;

# 下边的语句是错误的,因为GROUP BY分组只对聚合的列是有效的,其它的列则不是想要的结果
SELECT d1.Name As Department, e1.Name AS Employee, e1.Salary AS Salary FROM
    (SELECT Name, MAX(salary), DepartmentId FROM Employee GROUP BY DepartmentId) e1, 
    Department d1 WHERE d1.Id=e1.DepartmentId;

部门工资前三高的员工

Employee 表包含所有员工信息,每个员工有其对应的 Id, salary 和 department Id 。
+----+-------+--------+--------------+
| Id | Name  | Salary | DepartmentId |
+----+-------+--------+--------------+
| 1  | Joe   | 70000  | 1            |
| 2  | Henry | 80000  | 2            |
| 3  | Sam   | 60000  | 2            |
| 4  | Max   | 90000  | 1            |
| 5  | Janet | 69000  | 1            |
| 6  | Randy | 85000  | 1            |
+----+-------+--------+--------------+
Department 表包含公司所有部门的信息。
+----+----------+
| Id | Name     |
+----+----------+
| 1  | IT       |
| 2  | Sales    |
+----+----------+
编写一个 SQL 查询,找出每个部门工资前三高的员工。例如,根据上述给定的表格,查询结果应返回:
+------------+----------+--------+
| Department | Employee | Salary |
+------------+----------+--------+
| IT         | Max      | 90000  |
| IT         | Randy    | 85000  |
| IT         | Joe      | 70000  |
| Sales      | Henry    | 80000  |
| Sales      | Sam      | 60000  |
+------------+----------+--------+

这个是分组排序问题:

SELECT D.Name AS Department, E.Name AS Employee, E.Salary AS Salary FROM Employee E, Department D
    WHERE E.DepartmentId=D.Id AND
        3 > (SELECT COUNT(DISTINCT(Salary)) FROM Employee
                WHERE DepartmentId=D.Id AND Salary > E.Salary)
ORDER BY D.Name ASC, E.Salary DESC;

分组排序问题,利用了在子查询的SELECT语句中可以访问外围语句的特点,构造WHERE条件表达式。因为每一组中的每一行是否需要被选中,取决于其在这一组中的固定位置,所以可以这样做。如果当前行是否被选中,需要考虑后边行的信息,那么就会比较困难了,如下边的问题所示。

体育馆的人流量

X 市建了一个新的体育馆,每日人流量信息被记录在这三列信息中:序号 (id)、日期 (date)、 人流量 (people)。
请编写一个查询语句,找出高峰期时段,要求连续三天及以上,并且每天人流量均不少于100。
例如,表 stadium:
+------+------------+-----------+
| id   | date       | people    |
+------+------------+-----------+
| 1    | 2017-01-01 | 10        |
| 2    | 2017-01-02 | 109       |
| 3    | 2017-01-03 | 150       |
| 4    | 2017-01-04 | 99        |
| 5    | 2017-01-05 | 145       |
| 6    | 2017-01-06 | 1455      |
| 7    | 2017-01-07 | 199       |
| 8    | 2017-01-08 | 188       |
+------+------------+-----------+
对于上面的示例数据,输出为:
+------+------------+-----------+
| id   | date       | people    |
+------+------------+-----------+
| 5    | 2017-01-05 | 145       |
| 6    | 2017-01-06 | 1455      |
| 7    | 2017-01-07 | 199       |
| 8    | 2017-01-08 | 188       |
+------+------------+-----------+
Note:
每天只有一行记录,日期随着 id 的增加而增加。

一个取巧的方法:

SELECT DISTINCT s1.* FROM stadium s1, stadium s2, stadium s3
    WHERE s1.people >= 100 AND s2.people >= 100 AND s3.people >= 100 AND
    (
        (s1.id-s2.id = 1 AND s2.id-s3.id = 1)
        OR
        (s2.id-s1.id=1 AND s1.id-s3.id=1)
        OR
        (s3.id-s2.id=1 AND s2.id-s1.id=1)
    )
ORDER BY s1.id;

这个方法也不好,只是硬编码而已。如果业务要求前几十个,那么就要连接几十个了?上边的方法的本质就是表连接。

行程和用户

Trips 表中存所有出租车的行程信息。每段行程有唯一键 Id,Client_Id 和 Driver_Id 是 Users 表中 Users_Id 的外键。Status 是枚举类型,枚举成员为 (‘completed’, ‘cancelled_by_driver’, ‘cancelled_by_client’)。
+----+-----------+-----------+---------+--------------------+----------+
| Id | Client_Id | Driver_Id | City_Id |        Status      |Request_at|
+----+-----------+-----------+---------+--------------------+----------+
| 1  |     1     |    10     |    1    |     completed      |2013-10-01|
| 2  |     2     |    11     |    1    | cancelled_by_driver|2013-10-01|
| 3  |     3     |    12     |    6    |     completed      |2013-10-01|
| 4  |     4     |    13     |    6    | cancelled_by_client|2013-10-01|
| 5  |     1     |    10     |    1    |     completed      |2013-10-02|
| 6  |     2     |    11     |    6    |     completed      |2013-10-02|
| 7  |     3     |    12     |    6    |     completed      |2013-10-02|
| 8  |     2     |    12     |    12   |     completed      |2013-10-03|
| 9  |     3     |    10     |    12   |     completed      |2013-10-03| 
| 10 |     4     |    13     |    12   | cancelled_by_driver|2013-10-03|
+----+-----------+-----------+---------+--------------------+----------+
Users 表存所有用户。每个用户有唯一键 Users_Id。Banned 表示这个用户是否被禁止,Role 则是一个表示(‘client’, ‘driver’, ‘partner’)的枚举类型。
+----------+--------+--------+
| Users_Id | Banned |  Role  |
+----------+--------+--------+
|    1     |   No   | client |
|    2     |   Yes  | client |
|    3     |   No   | client |
|    4     |   No   | client |
|    10    |   No   | driver |
|    11    |   No   | driver |
|    12    |   No   | driver |
|    13    |   No   | driver |
+----------+--------+--------+
写一段 SQL 语句查出 2013年10月1日 至 2013年10月3日 期间非禁止用户的取消率。基于上表,你的 SQL 语句应返回如下结果,取消率(Cancellation Rate)保留两位小数。
+------------+-------------------+
|     Day    | Cancellation Rate |
+------------+-------------------+
| 2013-10-01 |       0.33        |
| 2013-10-02 |       0.00        |
| 2013-10-03 |       0.50        |
+------------+-------------------+

这个问题也是分组问题,就是按照日期进行分组,然后统计每一天的取消的数目,如果不算被banned的用户,其实就是统计一张表里边的信息,按照日期分组,而后算出这一天不是completed的计数和总的计数相除即可。不过加上了banned的表,但是思路还是不变的。

SELECT t1.Request_at AS 'Day', 
    ROUND(COUNT(DISTINCT IF(t1.Status!='completed' AND u1.Banned='No' AND u2.Banned='No', t1.Id, NULL)) / COUNT(DISTINCT IF(u1.Banned='No' AND u2.Banned='No', t1.Id, NULL)), 2) AS 'Cancellation Rate' FROM Trips t1
    LEFT JOIN Users u1
        ON t1.Client_id=u1.Users_id
    LEFT JOIN Users u2
        ON t1.Driver_id=u2.Users_id
    WHERE t1.Request_at BETWEEN '2013-10-01' AND '2013-10-03'
    GROUP BY t1.Request_at;

总结

在做题的时候,发现自己对于SQL的很多细节都不知道,上边的一些例题权当总结,以后多看看,让自己了解SQL的关键点,包括表连接,分组,一些内置函数等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值