10道不可不会的SQL面试题

大家好,SQL(结构化查询语言)是一种标准的编程语言,用于管理和操作数据库。对于任何数据专业人员来说,这都是一项基本技能,因为它使他们能够有效地检索和分析存储在数据库中的数据。因此,在与数据相关的职位(如数据分析师、数据工程师和数据库管理员)的技术面试中,SQL是一个常见的话题,本文将列出十个常见的高级数据科学SQL面试问题及答案。

问题01:

查找第n高的工资/付款或第三高的工资/付款的SQL查询

要查找第n高的工资,可以使用子查询和DENSE_RANK()函数计算每个工资的密集排名,然后过滤结果,只包括排名等于n的行。

SELECT 
  * 
FROM 
  (
    SELECT 
      name, 
      salary, 
      DENSE_RANK() OVER (
        ORDER BY 
          salary DESC
      ) as salary_rank 
    FROM 
      employees
  ) subquery 
WHERE 
  salary_rank = n;

你还可以使用LIMITOFFSET子句来查找第n高的工资,如下所示:

SELECT 
  name, 
  salary 
FROM 
  employees 
ORDER BY 
  salary DESC 
LIMIT 
  1 OFFSET (n - 1);

例如,要查找第三高的工资,可以使用以下查询:

SELECT 
  name, 
  salary 
FROM 
  employees 
ORDER BY 
  salary DESC 
LIMIT 
  1 OFFSET 2;

问题 02:

如何优化SQL查询以提高性能

有几种方法可以优化SQL查询以获得更好的性能,包括:

  • 索引

在一个列或一组列上创建索引可以显著提高过滤这些列的查询速度。

  • 分区

将一个大表分成更小的部分,可以提高只需要访问数据子集的查询性能。

  • 规范化

规范化涉及将数据库中的数据组织起来,使每个数据只存储在一个位置,减少冗余并完善数据的完整性。

  • 使用适当的数据类型

为每个列使用正确的数据类型可以提高过滤或排序这些列的查询性能。

  • 使用适当的JOIN类型

使用正确的JOIN类型(例如INNER JOINOUTER JOINCROSS JOIN)可以提高连接多个表的查询性能。

  • 使用适当的聚合函数

使用适当的聚合函数(例如SUMAVGMINMAX)可以提高对大数据集执行计算的查询性能。某些聚合函数(例如COUNT)比其他函数更有效,因此为你的查询选择适用的函数很重要。

问题 03:

如何在SQL中使用LAG和LEAD函数,能否给出它们的使用示例

LAG()LEAD()函数是SQL中的窗口函数,允许你将一行中的值与其前面或后面的行中的值进行比较。它们对于计算累计总数或将表中的值与前一个或后一个行中的值进行比较非常有用。

LAG()函数需要两个参数:要返回的列和要返回多少行。例如:

SELECT 
  name, 
  salary, 
  LAG(salary, 1) OVER (
    ORDER BY 
      salary DESC
  ) as prev_salary 
FROM 
  employees;

LEAD()函数的工作方式类似,但它是向前而不是向后。例如:

SELECT 
  name, 
  salary, 
  LEAD(salary, 1) OVER (
    ORDER BY 
      salary DESC
  ) as next_salary 
FROM 
  employees

问题 04:

在SQL中解释ETL和ELT概念

ETL(Extract,Transform,Load/提取、转换、加载)是SQL中用于从一个或多个源中提取数据、将数据转换为适合分析或其他用途的格式,然后将数据加载到目标系统(如数据仓库或数据湖)的过程。

ELT(Extract,Load,Transform/抽取、加载、转换)与ETL类似,但是转换阶段是在数据加载到目标系统后执行的,而不是在之前执行的。这使得目标系统可以执行转换,这可能比在ETL工具中执行转换更有效和更可扩展。现代数据基础架构通常使用强大的数据处理引擎(如Apache Spark或Apache Flink)来执行转换阶段。

问题 05:

请解释SQL中WHERE子句和HAVING子句之间的区别

WHERE子句和HAVING子句都用于过滤SELECT语句中的行。两者之间的主要区别在于WHERE子句用于在GROUP BY操作之前过滤行,而HAVING子句用于在GROUP BY操作之后过滤行。

SELECT 
  department, 
  SUM(salary) 
FROM 
  employees 
GROUP BY 
  department 
HAVING 
  SUM(salary) > 100000;

在此示例中,HAVING子句用于过滤掉任何工资总和少于100000的部门。这是在GROUP BY操作之后完成的,因此它只影响代表每个部门的行。

SELECT 
  * 
FROM 
  employees 
WHERE 
  salary > 50000;

在此示例中,WHERE子句用于过滤掉工资少于50000的员工。这是在任何GROUP BY操作之前完成的,因此它会影响到员工表中的所有行。

问题 06:

请解释SQL中TRUNCATE、DROP和DELETE操作之间的区别

1)TRUNCATE操作从表中删除所有行,但不影响表的结构。它比DELETE更快,因为它不生成任何撤消或重做日志,并且不触发任何删除触发器。

以下是使用TRUNCATE语句的示例:

TRUNCATE TABLE employees;

该语句从员工表中删除所有行,但表结构(包括列名和数据类型)保持不变。

2)DROP操作从数据库中删除一个表并删除表中的所有数据。它还会删除与表相关联的任何索引、触发器和约束。

以下是使用DROP语句的示例:

DROP 
  TABLE employees;

该语句从数据库中删除员工表,并永久删除表中的所有数据。表结构也被删除。

3)DELETE操作从表中删除一个或多个行。它允许你指定WHERE子句以选择要删除的行。它还生成撤消和重做日志,并触发取消触发器。

以下是使用DELETE语句的示例:

DELETE FROM 
  employees 
WHERE 
  salary & lt;
50000;

该语句删除员工表中所有工资小于50000的行。表结构保持不变,已删除的行可以使用撤消日志进行恢复。

问题 07:

连接和子查询哪个更有效

在组合来自多个表的数据时,通常使用JOIN要比子查询更有效。这是因为JOIN允许数据库使用连接表上的索引更有效地执行查询。

例如,考虑以下两个返回相同结果的查询:

SELECT 
  * 
FROM 
  orders o 
WHERE 
  o.customer_id IN (
    SELECT 
      customer_id 
    FROM 
      customers 
    WHERE 
      country = 'US'
  );
SELECT 
  * 
FROM 
  orders o 
WHERE 
  o.customer_id IN (
    SELECT 
      customer_id 
    FROM 
      customers 
    WHERE 
      country = 'US'
  );

第一个查询使用JOIN将订单表和客户表组合起来,然后使用WHERE子句过滤结果。第二个查询使用子查询从客户表中选择相关的客户ID,然后使用IN运算符根据这些ID过滤订单表。

问题 08:

如何在SQL中使用窗口函数

在SQL中,窗口函数是一种在窗口规范定义的一组行上操作的函数。窗口函数用于在行之间执行计算,并可用于SELECTUPDATE和SQL面试问题语句,以及SELECT语句的WHEREHAVING子句中。

以下是在SELECT语句中使用窗口函数的示例:


SELECT 
  name, 
  salary, 
  AVG(salary) OVER (PARTITION BY department_id) as avg_salary_by_department 
FROM 
  employees

该语句返回一个带有三列的结果集:姓名、工资和avg_salary_by_departmentavg_salary_by_department列使用AVG窗口函数计算每个部门的平均工资。PARTITION BY子句指定窗口按department_id分区,这意味着平均工资是单独计算每个部门的。

问题 09:

请解释规范化

规范化是以减少冗余和依赖性的方式组织数据库的过程。它是一种系统化的方法,用于分解表以消除数据冗余并提高数据完整性。有几种规范形式可用于规范化数据库。最常见的规范形式是:

第一范式(1NF)

  • 表中的每个单元格都包含一个值,而不是值列表。

  • 表中的每列都有一个唯一的名称。

  • 表中不包含任何重复的列组。

第二范式(2NF)

  • 符合第一范式。

  • 没有任何部分依赖(即,非主属性依赖于复合主键的一部分)。

第三范式(3NF)

  • 符合第二范式。

  • 没有任何传递依赖(即,一个非主属性依赖于另一个非主属性)。

Boyce-Codd范式(BCNF)

  • 符合第三范式。

  • 每个决定因素(决定另一个属性值的属性)都是候选键(可以用作主键的列或列集)。

问题 10: 

解释SQL中的独占锁和更新锁

独占锁是一种防止其他事务读取或写入被锁定的行的锁。这种类型的锁通常用于当一个事务需要修改表中的数据时,它要确保没有其他事务可以同时访问该表。

更新锁是一个允许其他事务读取被锁定的行的锁,但防止他们更新或写入被锁定的行。这种类型的锁通常用于一个事务需要读取表中的数据,但它要确保在当前事务完成之前,其他事务不会修改这些数据。

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
第二天 1、查询客户表,统计每个机构2000年之前开户数、2000~2005开户数(含头不含尾)、2005~2010开户数(含头不含尾)、2010之后开户数 展示字段:机构号、2000年之前开户数、2000~2005年开户数、2005~2010年开户数、2010年之后开户数 2、查询客户表,按年份统计,每年、每个机构开户数占全年开户数的占比 展示字段:年份、机构号、开户数、开户占比百分比(百分比) 3、统计所有客户的客户号、存款账户数、2011.12.31日的存款余额、2011.12存款月日均、贷款账户数、2011.12.31日的贷款余额、2011.12贷款月日均 备注:null置为0 第三天 1、统计所有客户的2011.12.31日的存款余额、存款比上日余额、存款比上月余额、、存款比上年余额 备注:存款比上日余额 = 2011.12.31日的存款余额-2011.12.30日的存款余额 存款比上月余额 = 2011.12.31日的存款余额-2011.11.30日的存款余额 存款比上年余额 = 2011.12.31日的存款余额-2010.12.31日的存款余额 只有2011.12.31这个日期可以写死,其他日期要通过2011.12.31这个日期来生成。 2、统计所有2011年存款年日均大于100的客户号、客户名称、存款账户数、2011年年日均 第四天 1、统计所有2011年存款年日均和2011年贷款年日均都大于100的客户号、存款账户数、2011年存款年日均、贷款账户数、2011年贷款年日均 2、统计所有客户的客户号、 存款标志(有存款账户的客户置为1、没存款账户的客户置为0)、 贷款标志(有贷款借据的客户置为1、没贷款借据的客户置为0)、 存款质量分类(2011年存款年日均>=10000置为优质、2011年存款年日均>=1000<10000 置为良好、2011年存款年日均=10000置为优质、2011年贷款年日均>=1000<10000 置为良好、2011年贷款年日均<1000置为普通)、 2011年贷款年日均 第五天 1、根据《事件表.xlsx》来建表,然后将excel中的数据导入到目标表中 2、根据客户表、存款信息表、事件表,统计每个客户2017年的客户号、 交易账户数(客户下有多少个账户有交易就是多少)、 当年有交易的天数(如果2017年有5天有过交易,则有交易天数为5)、 当年有交易总月数(如果2017的1、3、5月有交易,则有交易总月数为3)、 最大的月交易总金额(按月统计交易金额,存放最大的月交易金额)、 最大月交易金额的月份(按月统计交易金额,存放交易金额最大的月份)、 年总交易金额、 年交易金额排名(按客户排名,如果总交易金额为0,则不参与排名,排名置为9999)、 年总手续费、 年总手续费排名(按客户排名,如果总手续费为0,则不参与排名,排名置为9999)

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

python慕遥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值