数据库原理

最新推荐文章于 2023-11-29 09:41:41 发布

zhifeng687

最新推荐文章于 2023-11-29 09:41:41 发布

阅读量4.6k

点赞数

48 篇文章 3 订阅

订阅专栏

MYISAM与innodb搜索引擎原理MyISAM引擎使用B+Tree作为索引结构，叶节点的data域存放的是数据记录的地址。其采用索引文件与数据文件，索引文件只存放索引，叶子节点存放数据的物理地址。数据文件存放数据。其索引方式是非聚集的。
InnoDB也使用B+Tree作为索引结构。但是它的主索引与数据都放在一个文件中。这种索引叫做聚集索引，因为InnoDB的数据文件本身要按主键聚集，所以InnoDB要求表必须有主键（MyISAM可以没有），如果没有显式指定，则MySQL系统会自动选择一个可以唯一标识数据记录的列作为主键，如果不存在这种列，则MySQL自动为InnoDB表生成一个隐含字段作为主键，这个字段长度为6个字节，类型为长整形。

3.索引，聚簇索引和二级索引的加锁区别

聚集（clustered）索引，也叫聚簇索引。数据行的物理顺序与列值（一般是主键的那一列）的逻辑顺序相同，一个表中只能拥有一个聚集索引。
非聚集（unclustered）索引。该索引中索引的逻辑顺序与磁盘上行的物理存储顺序不同，一个表中可以拥有多个非聚集索引。会发生二次查询。
稠密索引:稠密索引文件中的索引块保持键的顺序与文件中的排序顺序一致。
稀疏索引:稀疏索引没有为每个数据都创建一个索引,它比稠密索引节省了更多的存储空间，但查找给定值的记录需更多的时间。只有当数据文件是按照某个查找键排序时，在该查找键上建立的稀疏索引才能被使用，而稠密索引则可以应用在任何的查找键。
联合索引:将一张表中多个列组成联合索引(col1,col2,col3)，其生效方式满足最左前缀原则。
覆盖索引:对于二级索引而言，在innodb中一般是需要先根据二级索引查询到主键，然后在根据一级索引查询到数据。但是如果select的列都在索引中，就避免进行一级查询。

4.主键选择

5.分表分库

水平拆分：依据表中的数据的逻辑关系，将同一个表中的数据依照某种条件拆分到多台数据库（主机）上面。按照1个或多个字段以及相应的规则，将一张表重的数据分到多张表中去。比如按照id%5的规则，将一张大表拆分成5张小表。适合具有超大表的系统。
垂直拆分：依照不同的表（或者Schema）来切分到不同的数据库（主机）之上。一般按照模块来分库。适合各业务之间耦合度非常低的系统。

6.隔离级别

read uncommit:读不加锁，写加共享锁。会产生脏读、幻读。
read commit：读加共享锁，写加排它锁，但不加间隙锁。间隙锁的主要作用是防止不可重复读，但会加大锁的范围。
repeatable read(innodb默认):读加共享锁，写加间隙排它锁。注意，Innodb对这个级别进行了特殊处理，使得这个级别能够避免幻读，但不是所有引擎都能够防止幻读！(网易面试官问)
serialization：会给整张表加锁，强一致，但是效率低。

7.innodb中的锁

MVCC(multi-Version Concurrency Control)：读不加锁，读写不冲突。适合写少读多的场景。读操作分为：快照读（返回记录的可见版本，不加锁）、当前读（记录的最新版本，加锁，保证其它记录不修改）。
LBCC(Lock-Based Concurrency Control)：
join原理Simple Nested-Loop Join：效率最低，按照join的次序，在join的属性上一个个扫描，并合并结果。
Index Nested-Loop Join：效率最高，join的属性上面有索引，根据索引来匹配。
Block Nested-Loop Join：用于没有索引的列。它会采用join buffer，将外表的值缓存到join buffer中，然后与内表进行批量比较，这样可以降低对外表的访问频率

8.galera

9.LSM Tree，主要应用于nessDB、leveldb、hbase

核心思想的核心就是放弃部分读能力，换取写入的最大化能力。它假设假定内存足够大，因此不需要每次有数据更新就必须将数据写入到磁盘中，而可以先将最新的数据驻留在内存中，等到积累到最后多之后，再使用归并排序的方式将内存内的数据合并追加到磁盘队尾。（使用归并排序是要因为带排序树都是有序树）
LSM具有批量特性，存储延迟。B树在insert的时候可能会造成分裂，可能会造成随机读写。而LSM将多次单页随机写，变成一次多页随机写,复用了磁盘寻道时间，极大提升效率。
LSM Tree放弃磁盘读性能来换取写的顺序性。
一般会使用Bloom Filter来优化LSM。当将内存中的数据与磁盘数据合并的时候，先要判断数据是否有重复，如果不用Bloom Filter就需要在磁盘上一层层地找，而使用了之后就会降低搜索代价。

转载自：最全技术面试180题

关注