数据库面试题

你曾经是少年

于 2024-09-24 08:17:06 发布

阅读量567

点赞数 9

文章标签： oracle 数据库 mybatis

本文链接：https://blog.csdn.net/weixin_41545189/article/details/142306428

版权

问题1：什么是事务？

事务是数据库中一组操作的执行单元，这些操作要么全部成功执行，要么全部不执行。事务确保了数据库的完整性和一致性。

问题2：事务基本特性ACID？

- 原子性（Atomicity）：事务是不可分割的工作单位，要么全部执行，要么全部不执行。

- 一致性（Consistency）：事务执行前后，数据库应保持一致状态，即数据库的完整性约束不会被破坏。

tips：一致性确保了数据库中的数据符合表的约束要求，包括主键约束、唯一约束、外键约束等。在执行事务之前和之后，数据库中的数据都应该满足这些约束条件，以确保数据的合法性和逻辑一致性。这就是一致性的含义。

- 隔离性（Isolation）：多个事务并发执行时，每个事务都应该与其他事务隔离开来，互不干扰。

- 持久性（Durability）：一旦事务提交，其结果应该永久保存在数据库中，即使发生系统故障。

问题3：数据库中并发一致性问题？

并发一致性问题是指在多个事务并发执行时可能导致的数据不一致的情况，包括脏读、不可重复读和幻读等。

问题4：事务的隔离等级？

事务的隔离等级包括脏读、不可重复读、可重复读和串行化，用于控制事务并发执行时的数据可见性和影响。

问题5：ACID靠什么保证的呢？

ACID的保证是通过数据库管理系统提供的事务管理机制来实现的，包括锁机制、多版本并发控制（MVCC）、事务日志等。

问题6：SQL优化的实践经验？

SQL优化的实践经验包括使用合适的索引、避免全表扫描、谨慎使用JOIN操作、避免使用SELECT 等。

问题7：Buffer Pool、Redo Log Buffer 和undo log、redo log、bin log 概念以及关系？

Buffer Pool是数据库中用于缓存数据页的内存区域，Redo Log Buffer用于缓存重做日志的内存区域。undo log和redo log分别用于事务的回滚和重做操作，bin log用于记录数据库的更改操作。
它们之间的关系是：当数据库进行修改时，首先将修改记录到redo log中，然后修改数据，同时将修改前的数据记录到undo log中，最后将修改操作记录到bin log中以便进行备份和复制。

问题8：从准备更新一条数据到事务的提交的流程描述？

当准备更新一条数据并将其提交到数据库时，通常会涉及以下步骤和流程：

1. 连接到数据库：首先，应用程序会建立到数据库的连接，这可以通过使用数据库的连接字符串或者其他连接方式来实现。

2. 开始事务：在执行更新之前，通常会启动一个数据库事务。这可以通过执行类似于 "BEGIN TRANSACTION" 的SQL语句来实现，具体语法取决于所使用的数据库管理系统。

3. 查询数据：应用程序可能需要先查询要更新的数据，以确保当前数据的一致性和准确性。

4. 更新数据：接下来，应用程序会执行更新操作，这可能涉及执行类似于 "UPDATE" 的SQL语句来修改数据。

5. 提交事务：一旦更新操作完成，并且应用程序确认不再有其他操作需要进行，就可以提交事务。这可以通过执行类似于 "COMMIT" 的SQL语句来实现。

6. 关闭连接：最后，应用程序会关闭与数据库的连接，释放相关资源。

在整个过程中，事务的开始和提交非常重要，因为它们确保了数据更新的原子性、一致性、隔离性和持久性（ACID属性），从而保证了数据的完整性和可靠性。如果在更新过程中出现了错误或异常，可以通过回滚事务来撤销之前的更新操作，以确保数据的一致性。

问题9：myisam 和 innodb的区别是什么？

MyISAM 和 InnoDB 是 MySQL 中常见的两种存储引擎。
它们的主要区别在于事务支持、锁机制、并发性能和数据恢复能力。
MyISAM 不支持事务，而 InnoDB 支持事务。
InnoDB 使用行级锁，可以提供更好的并发性能，而 MyISAM 使用表级锁。
此外，InnoDB 支持外键约束，而 MyISAM 不支持。

问题:10：MySQL的索引有哪些？

答案2：MySQL 的索引包括主键索引、唯一索引、普通索引和全文索引。
主键索引用于唯一标识每一行数据，
唯一索引确保列的唯一性，
普通索引用于加快查询速度，
全文索引用于全文搜索。

问题11：什么是B+树？

B+树是一种平衡树数据结构，
用于在数据库中组织和管理索引。它具有多路平衡查找树的特点，能够快速地进行范围查询和顺序访问。

问题12：为什么B+树成为主要的SQL数据库的索引实现？

B+树由于其良好的平衡性和多路查找特性，适合数据库中大量数据的索引管理。B+树能够快速进行范围查询和顺序访问，
同时保持树的平衡，因此成为主流数据库索引实现的选择。

问题13：你知道什么是覆盖索引和回表吗？

覆盖索引是指索引包含了查询所需的所有列，
因此不需要回表到主键索引或数据页来获取数据。
回表是指当查询需要的数据不在索引中时，数据库需要根据主键索引再次查找数据。

问题14：什么是MVCC？

- MVCC（多版本并发控制）是一种数据库管理系统中处理并发访问的技术。

- 它通过为每个事务创建数据库的快照（或版本），来实现事务的隔离性，从而避免锁的使用，提高并发性能。

问题15：说说MySQL实现MVCC的原理？

MySQL使用MVCC通过在每行记录后面保存两个隐藏的列来实现：
一个是用来记录行的创建时间，一个是用来记录行的过期时间。
在读取数据时，数据库系统会根据事务的时间戳来判断该事务能够看到哪些数据版本。

MySQL 锁的类型有哪些呢？

MySQL锁包括共享锁（读锁）、排他锁（写锁）、表级锁和行级锁。
共享锁允许多个事务同时读取数据，排他锁则只允许一个事务修改数据。
表级锁和行级锁则是针对整个表和单行数据的锁。

问题17：你们数据量级多大？

问题18：分库分表怎么做的？

分库分表是指将数据库按照一定规则分成多个库和表，通常可以根据业务需求、数据量等因素进行分片。分库分表的实现需要考虑数据切分规则、数据迁移、跨库查询等问题。

问题19：分表后的ID怎么保证唯一性的呢？

在分表后，可以使用全局唯一标识（GUID）或者分布式ID生成器来保证ID的唯一性。另外，也可以通过数据库自增列的方式来保证每个分表中的ID唯一。

问题20：分表后非sharding_key的查询怎么处理呢？

分表后非sharding_key的查询通常需要在所有分表中进行查询，并将结果合并。这可能会导致跨分片查询的性能问题，因此需要在设计分表策略时考虑好业务需求和性能影响。

问题21：MySQL主从复制？

MySQL主从复制是指将一个MySQL数据库服务器（主服务器）的数据复制到其他MySQL服务器（从服务器）上，以实现数据备份、读写分离等需求。

问题22：MySQL主从的延迟怎么解决呢？

MySQL主从复制的延迟可以通过优化网络、调整主从服务器的性能配置、增加从服务器数量等方式来缓解。另外，也可以考虑使用中间件来实现更灵活的主从复制管理。

问题23：MySQL读写分离方案?

MySQL读写分离是指将读操作和写操作分发到不同的MySQL服务器上，以实现负载均衡和提高系统性能。常见的实现方式包括通过中间件实现读写分离、使用MySQL Proxy等。

在设计数据库的时候，是不是需求大于性能大于表结构，不应该纠结于范式和反范式？

在设计数据库时，需求、性能和表结构之间存在一种平衡关系。这三者之间的权衡取决于具体的应用场景和需求。

1. **需求**：首先，需求是设计数据库的出发点，因为数据库的设计应该满足业务需求和功能要求。在设计数据库时，需要充分理解业务需求，包括数据的结构、关系和操作方式。因此，需求是数据库设计的基础。

2. **性能**：性能是数据库设计的重要考量因素之一。在高并发、大数据量的场景下，性能优化是至关重要的。设计数据库时需要考虑到数据的读写频率、查询操作的复杂度以及数据的扩展性，以确保数据库能够提供高效的性能。

3. **表结构**：范式和反范式是数据库设计中常用的两种范式化方式。范式化可以确保数据的一致性和减少冗余，而反范式化可以提高查询性能和简化数据操作。在设计数据库时，需要根据具体的业务需求和性能要求来选择合适的表结构范式化方式。

因此，在设计数据库时，需要根据实际情况进行综合考量。如果业务需求对数据一致性和冗余要求较高，可以考虑采用范式化设计；如果对性能要求较高，可以适当采用反范式化设计。在需求、性能和表结构之间需要进行权衡，以达到最佳的设计效果。

为什么有的数据主键是自增的好，有的却不是，主键是用其数据库自带的技术，还是在客户端是生成，取决于什么呢？

数据主键是否使用自增的方式取决于具体的业务需求和数据库设计考量。

1. **自增主键的优势**：

- 自增主键可以简化数据插入操作，因为数据库会自动为新插入的记录分配一个唯一的主键值，无需手动处理主键冲突问题。

- 自增主键有助于提高性能，因为数据库引擎可以更快地处理自增值的分配和索引，减少了对主键的复杂处理。

2. **非自增主键的优势**：

- 有时业务需求可能需要使用业务相关的唯一标识作为主键，而不是简单的自增数字。例如，可能需要使用业务订单号、用户手机号码等作为主键，这样可以更好地满足业务逻辑。

- 在分布式系统中，使用自增主键可能会引发一些分布式ID生成的问题，因此有些情况下会选择使用其他方式生成主键。

3. **主键生成方式的选择**：

- 主键是使用数据库自带的自增技术生成，还是在客户端生成，取决于具体的业务需求和数据库设计考量。

- 如果业务中需要简化数据插入操作、提高性能，并且对主键值的具体含义没有特殊要求，通常会选择数据库自带的自增技术。

- 如果业务中对主键值有特殊要求，或者需要与业务逻辑相关联，或者需要在分布式系统中保证唯一性，可能会选择在客户端生成主键。

因此，选择主键生成方式需要综合考虑业务需求、性能要求、数据完整性以及系统架构等因素，以达到最佳的设计效果。

当优化数据库性能时，可以考虑以下几点：

1. **合理选择字段的数据类型**：选择合适的数据类型可以减少存储空间和提高检索效率，例如使用无符号整型、ENUM类型等。

2. **合理设置字段长度**：适当控制字段长度可以减少磁盘I/O操作，提高性能。

3. **选择合适的存储引擎**：根据需求选择合适的存储引擎，如MyISAM、InnoDB等，以充分发挥其优势。

4. **SQL优化**：通过使用索引、避免大事务、减少不必要的查询等方式优化SQL语句。

5. **分表**：当表数据量大时，考虑将表拆分成多张表，以提高查询速度。

6. **数据库参数配置优化**：根据应用程序的特性和硬件情况，调整数据库的配置参数，如最大连接数、缓冲池大小等。

7. **主从复制，读写分离**：通过主从复制和读写分离，分担数据库的压力，提高并发处理能力。

8. **增加缓存层**：通过使用缓存服务器，如redis、memcache等，减少数据库连接，提高性能。

9. **升级服务器硬件**：如果以上优化手段无法满足性能需求，考虑升级数据库服务器硬件，包括更快的磁盘IO设备、更强的CPU、更大的内存等。

这些优化手段可以帮助提高数据库性能，但在实际应用中，需要根据具体情况综合考虑，并进行适当的测试和调整。

在分库分表方式中，存在以下几点问题：

1. **事务问题**：由于数据存储到不同的库上，数据库事务管理变得困难，依赖数据库本身的分布式事务管理会付出高昂的性能代价，而由应用程序协助控制事务会增加编程方面的负担。

2. **跨库跨表的join问题**：分库分表后，逻辑关联性强的数据被划分到不同的表、不同的库上，导致难以进行跨库跨表的join操作，可能需要多次查询才能完成原本一次查询能够完成的业务。

3. **增加数据管理负担和数据运算压力**：分库分表会增加数据的定位问题和数据的增删改查的重复执行问题，需要通过应用程序解决，但会引起额外的逻辑运算。

4. **分页统计问题**：在分表之前，只需一个order by语句就可以查出成绩最好的100位，但在分表之后，需要对每个分表进行order by语句，然后合并计算结果，增加了统计的复杂性和计算压力。

这些问题需要在实际应用中进行综合考虑和解决，可能需要通过合理的架构设计、数据库中间件、分布式事务处理等手段来解决。

1. **事务问题**：在分库分表的情况下，确实会面临事务管理的挑战。一种解决方案是采用分布式事务协调器，如Seata或者TCC（Try, Confirm, Cancel）等。这些工具可以帮助协调不同数据库之间的事务，减轻了应用程序的负担。此外，可以采用基于消息的最终一致性方案，将事务拆分为多个阶段，通过消息队列来保证最终一致性。

2. **跨库跨表的join问题**：针对这个问题，可以考虑在应用层进行数据的关联操作。通过在应用程序中进行数据聚合和关联，可以避免跨库跨表的join操作，但需要注意增加的数据传输量和应用程序的计算复杂度。

3. **增加数据管理负担和数据运算压力**：为了减轻数据管理负担和运算压力，可以考虑引入缓存，将热点数据缓存到内存中，减少对数据库的访问。此外，合理设计数据访问层的缓存策略和数据分片策略，可以有效减轻数据库的压力。

4. **分页统计问题**：针对分页统计问题，可以考虑引入预计算和汇总表。通过定期计算汇总数据并存储到专门的汇总表中，可以避免每次都对大量数据进行排序和统计，提高查询性能。

关于分页统计以及分页查询的几点：

1. 分页查询：在分表分库后，对于带有shardingkey的查询，比如通过订单号查询，可以直接定位到具体的表来查询，因此分页查询不会有太大问题。而对于不带shardingkey的查询，可以通过在订单号上带上用户ID的属性，或者采用其他方式来解决。

2. 唯一主键：在分表分库后，可以通过唯一的业务字段作为唯一的主键，比如订单表的订单号，以确保主键唯一性。常见的分布式生成唯一ID的方式包括雪花算法Snowflake、滴滴Tinyid、美团Leaf等。

3. 客户端查询：针对来自用户端C端的查询，可以通过订单号或用户ID来进行sharding，解决了大部分查询问题。对于来自商户端B端或后台的查询，可以采取双写或者利用离线数仓或ES查询的方式来解决。

4. 其他端查询：针对商户端B端或后台的查询，可以采取双写策略，将数据落到不同的地方进行存储。另外，也可以考虑使用宽表，将数据同步到数仓或者ES，以支持复杂的查询条件。

5. 分页统计：如果采用了ES的宽表方案，可以轻松地进行分页查询和统计分析，直接从ES中进行统计分析以及分页查询。

综上所述，采用合适的shardingkey、唯一主键方案以及针对不同端的查询需求采取相应的解决方案，可以有效应对分表分库后的统计分析和分页查询需求。

以订单表为例，介绍Shardingkey：

在一个分布式数据库系统中，订单表可能会非常庞大，为了提高性能和可扩展性，可以将订单表按照某种规则分散存储到不同的节点上，每个节点上存储一部分订单数据，这些存储的部分就是分片（shard）。

在这种情况下，Shardingkey就是用来确定订单数据应该存储在哪个具体的分片中的关键属性或字段。通常情况下，订单表中的某个字段会被选为Shardingkey，比如订单号、用户ID等。

举例来说，如果我们选择订单号作为Shardingkey，那么系统在存储订单数据时会根据订单号的值应用特定的分片算法，比如hash函数或者取模运算，来确定每个订单应该存储在哪个分片中。这样就可以保证相同订单号的数据总是存储在同一个分片中，从而在查询时可以直接定位到特定的分片，而不需要在所有分片中进行搜索。

选择合适的Shardingkey对于订单表的性能和可扩展性至关重要。合理选择Shardingkey可以使得订单数据在分布式环境下更加均衡地分布在不同的节点上，同时也可以提高查询性能和系统的扩展能力。

和redis的分片很类似

在Redis中，分片（sharding）也是通过使用分片键（sharding key）来将数据分布存储在不同的节点上。这个分片键通常是用来确定数据应该存储在哪个具体的分片中的关键属性或字段。

当你在Redis中使用分片时，你可以选择一个适当的分片键，比如可以是用户ID、产品ID等，然后根据这个键的数值应用一种特定的分片算法（比如hash函数或者取模运算），来确定数据应该存储在哪个具体的分片中。

这样的设计使得相同分片键的数据总是存储在同一个分片中，从而在查询时可以直接定位到特定的分片，而不需要在所有分片中进行搜索，提高了查询性能。

因此，Redis中的分片和分布式数据库系统中的分片有类似的设计思想，都是通过选择合适的分片键来实现数据的分布存储和高效的查询。

MVCC

MVCC（多版本并发控制）是一种用于数据库管理系统中的并发控制技术，它的基本思想是为每次事务生成一个新版本的数据，并且在读取数据时可以选择不同版本的数据，从而实现对事务结果的完整性读取。MVCC 是InnoDB 存储引擎中实现事务隔离级别的一种机制。

在MVCC中，每行数据都可能有多个版本，而这些版本通过事务ID和时间戳来标识。这使得读操作不会阻塞写操作，写操作也不会阻塞读操作，从而提高了数据库系统的并发性能。

MVCC最大的好处之一是读取操作不需要加锁，这意味着在某些隔离级别下，读取操作不会受到写操作的影响。这对于读多写少的 OLTP 应用来说非常重要，可以极大地提高系统的并发性能。

需要指出的是，MVCC只适用于 REPEATABLE READ 和 READ COMMITTED 隔离级别。READ UNCOMMITTED 不兼容 MVCC，因为在该隔离级别下，查询无法找到适合其事务版本的行版本，它们每次只能读取到最新的版本。而 SERIALIZABLE 也不兼容 MVCC，因为读操作会锁定返回的每一行数据。

因此，你的总结是正确的。MVCC 的工作原理对于数据库系统的并发控制提供了重要的优势，但需要注意不同隔离级别下的兼容性和适用范围。