mysql

ydtestyd
已于 2023-05-19 14:58:15 修改
阅读量98
点赞数
文章标签： mysql 数据库 java
于 2023-05-15 16:33:22 首次发布
本文链接：https://blog.csdn.net/m0_37605576/article/details/130687563
版权
文章详细阐述了MySQL的架构特性，包括单进程多线程模型、连接管理、性能优化策略如设置最大连接数和内存缓冲区大小。还介绍了查询流程、日志系统（binlog和undolog的作用）、数据恢复与主从复制，以及事务处理和不同隔离级别的概念。此外，讨论了索引类型、存储引擎如InnoDB和MyISAM的特点，以及B+树的结构和性能影响。最后提到了数据查询优化、锁机制以及执行计划分析。
摘要由CSDN通过智能技术生成
mysql本身：单进程,多线程的  c/s架构,所谓的服务就是由一个一个线程执行的,可以这么理解--》一个线程就是一个连接(session)
mysql层面mysql性能优化：
1,清除掉不用的连接--->帮助mysql服务回收线程
2,设置最大连接数大体算法：
如果服务器的内存是8G,-2G给操作系统=6G,再-3G给内存缓冲区(buffer pool)=3G  再除以linux操作系统单进程的栈空间8M=350
如果项目是多线程的,一个项目有20个线程并发(！=连接池),总连接数=350*20=7000
如果设置想永久生效,需要修改etc/my.cnf文件,参数设置session和globl级别重启之后都不生效
mysql查询流程：客户端请求到服务端-->查询缓存(5.5版本之前开启,5.7版本关闭,8.0版本直接去掉了)-->词法解析(sql语法验证)
    -->语法解析(验证表是不是存在等)-->小型的优化(根据成本算出最优)-->生成执行计划-->调用执行引擎-->返回结果

数据库的日志：
binlog  存的都是ddl和dml语句,二进制的格式数据
        功能：数据恢复,主从复制
        1,数据恢复：一般情况下,数据库是有定时备份的,假定在2点备份.
        场景：如果数据库9点被误删了
        具体恢复步骤：恢复备份数据(恢复2点之前的数据)-->根据binlog恢复2点到9点的数据,如果有其他问题-->人工处理
        2,主从复制：一般情况下,一个库读,一个库写,对数据一致性要求稍差一些-->mssql一致性要求高一些
        具体步骤：主库有logdumpThread-->从库ioThread-->relaylog(产生小部分的中继日志)-->sqlthread-->存到从库
undolog 回滚日志,记录事务之前的日志,保证事务的原子性(一起成功,一起失败)
redolog 保证 buffer pool的数据在mysql崩溃的时候不丢,保证事务的持久性
        特点：本身环形日志,就是说如果日志满了都开始刷脏
        问题：如果说buffer pool设置的很大,但是redolog空间很小,这样buffer pool没有用满都开始刷脏了,相当于buffer pool设置的
        大小没有意义,所以redolog页需要相应调整大小(一般500M),最好和buffer pool保持同步才可以达到提升性能的目的

mysql 预读：当读取的数据很小的时候,不够一个数据页(16k),mysql会多读一些(局部性原理)

修改一条数据mysql的内部流程：
修改表数据结果--->buffer pool--->修改redolog(状态为prepared)--->记录undolog(提交之前的状态)--->通知可以提交事务--->修改binlog--->提交事务--->修改redolog(状态为commit)
 上面的流程是二阶段提交,为了保证数据的一致性,因为修改binlog之前重启mysql的话,buffer pool-可以恢复并且刷盘,但是binlog没有数据了

buffer pool 内存缓冲区
在内存和磁盘之间的一块区域,其实是也是内存,一般情况下大小应该设置到服务器内存的0.60-0.8之间。
数据查询流程：磁盘-->buffer pool-->内存-->返回,如果buffer pool有数据,直接返回
数据修改流程： 数据-->更新buffer pool-->刷脏线程将脏数据(redolog不同步的数据)同步到磁盘
如果buffer pool满了怎么办？-->内存淘汰策略lru

存储引擎：
innodb：默认存储引擎,支持行锁,支持事务和事务回滚(mvcc操作)
myisam：只支持表锁,但是查询的效率特别快,所以字典型数据的情况可以用myisam存储引擎
b+树：非叶子节点存放索引值和下一层级的地址,叶子节点存放数据
特点：数据顺序排列(顺序读),双向指针,一般三层(2层指针,一层数据)的结构,数据相对稳定
最大数据量计算：(一个数据库的磁盘页=16484字节),一般情况下
        (一个索引+一个指针=12个字节),16484/12=1300
        (一条完整的数据=字段数X每个字段的大小大约=1600个字节) 16484/1600=10,
所以三层b+树可以存放数据=1300X1300X10=1700w,所以一个表里有2000w的数据,查询的速度相对是稳定的,所以b+树的层级和表的字段结构
也有关系,也就是2000w的数据未必有5000w的数据快

hash索引：支持点到点的查询,myisam引擎的时候用
索引的使用原则：
        1,列的离散度要大,因为索引分不开相同的字段,所以查询的时候还是顺序读,而且索引增大了io,影响到了mysql优化器的判断,对于离散度小的这种情况的优化
需要分表,加上limit限制查询数量
        2,需要遵循最左匹配,就是查询条件有顺序,从左到右依次和联合索引的顺序一致
        3,在条件上加索引,order by, group by 也可以
        4,不要用uuid做主键,因为主键默认索引,所以uuid表数据的b+树会频繁变化,最好是顺序增长的
索引失效：只要是索引不明确都会失效
        1,索引上用函数
        2,索引上有隐式转换(类似字符串上不加引号)
        3,like关键字前模糊 前面有%
        4,负向like not like

覆盖索引 VS 回表：
前提：innodb-->数据即索引-->索引和数据都存在一个文件中,数据是存在叶子节点上的
聚集索引：叶子节点就是数据的索引-->前提条件：id,非空唯一搜索引,rowid做索引--->索引覆盖.或者查询的数据就是id是同样的道理
二级索引(普通索引)：叶子节点是聚集索引的id,并不是数据-->需要再次通过id查询一下数据-->聚集索引--->回表(走了两次索引也就是查询了两次io)
数据查询优化方案：
开启慢sql日志,一般设置500ms,查看慢sql统计的数据：mysqldumpslow -s ...还有很多参数，需要加一个软连接才可以用mysqldumpslow(mysql自带工具)
数据库层面的：1,更改数据每个session的连接时间 2,增加mysql的连接数(有计算方法) 3,增加buffer pool和redo log 的大小(有计算方法) 4,需要估算一个表的是数据量,是不是超过了4层b+树
表层面：1,查看在执行计划,是不是用到了索引 2,是不是走了回表(一般 select * 中会出现) 3,索引是不是失效  4,联合索引是不是有最左匹配  5,索引是不是用在了正确的字段(离散性角度)
6,需不需要加分区表  7,分库(参考微服务)分表操作,8,是不是开启了索引下推 9,级联查询小表驱动大表(较少过程数据)+历史数据缓存(可选)

事务(完整的begin,commit可以理解为客户端线程)：最终都是为了达到数据的一致性
sql 92标准：所有数据库都依据这样的标准
隔离级别：读未提交=-->现象：脏读 RU
隔离级别：读已提交=-->现象：可重复读 RC
隔离级别：可重复读=-->现象：幻读 -->RR  mysql通过MVCC在RR级别解决了幻读的问题
隔离级别：串行化=-->现象：问题都不会出现 seri

mysql解决读取数据一致性的问题采用了快照读+mvcc=->MVCC  多并发版本控制
原理：mysql维护一个表(类似),字段有事务操作数据的"创建版本"和"删除版本","版本"就是一个自增字段(一个begin，commit算一个事务),这个字段是根据每个新事务自增,也就是说最终隔离性根据每个事务区分(每个事务对于数据库来说是最小的操作单元,对服务端来说,就是客户端的一次tps)的,
通过undo log 记录事务开始时的状态实现事务回滚

锁：
共享锁：select * from table in share model 多个读数据事务可以共享
排他锁：select * from table for update  只有一个事务获取,一般情况下,分布式的任务可以直接用排他锁防止任务跑重
innodb锁的是索引-->,有索引才可以实现行锁,锁行数据-->gap(间隙锁)-->临界锁
一个表有5,8,10,15 4条数据
行锁：select * from table where id = '10' for update  -->id = '10'的记录是存在的,只锁id = '10'这条记录
间隙锁：select * from table where id = '11' for update  -->id = '11'的记录是不存在的,需要锁区间(10-15)
临界锁：select * from table where id > '10' and id <= 15 for update  -->id = '15'的记录是存在的,需要锁区间(10-15],(15,无穷大)
左开右闭是为了解决幻读的问题-->锁数据的时候有其他事务操作数据库

索引下推：
前提：查询的条件字段需要>=2,并且全部在联合索引的字段中(叶子节点是多个字段组成的联合数据和主键),最左匹配不满足(第一个条件查询是模糊匹配,多个数据),正常需要回表查询完整数据再筛选第二个条件,但是索引下推在搜索引擎中直接过滤了
        第二个条件(第二个条件也在复合索引列中,其他查询字段也是一样),默认开启索引下推
效果：减少回表,一次查询io



一些有用的命令：
show global status  服务端运行状态   举例：show global status like 'com_select'  查看执行select的次数,show global status like '%Threads%' 查看mysql线程数使用数量(个人理解都是连接数)
show processlist  查看哪些客户端连接数据库
show engine innodb status 查看搜索引擎的状态-->一般监控sql用
show global variables like 'wait_timeout' -->会话交互时间
show global variables like 'interacive_timeout' -->非会话交互时间
show global variables like 'max_connections' -->连接数


执行计划：
id：如果有大有小,从大到小执行; 如果值相同,从上往下执行   -->通过id可以查到表的执行顺序,是不是小表驱动大表(减少中间数据)(小表在前,大表在后)
type：const 主键或者唯一性索引直接命中的情况(匹配到唯一条数据),eq_ref 一般在join中,表示前表的每一个结果都能匹配到后表的唯一数据,ref 用非唯一(普通,二级索引)索引做常数匹配查询
    条件,或者索引的左前缀,rang  通过索引范围查询(> <),index  查询索引的字段(没有查询条件), all 没有索引
possible_keys：可能用到的索引
keys：最终用到的索引
Extra：using index：用到了覆盖索引

分库分表：一般用mycat,Sharding-JDBC
分库：-->参考微服务
分表：水平分-->一致性哈希方法(需要用到路由到不同的数据库)：先范围分表以id自增为例：-->1-2000w分一个库,2-4000w分一个库,以此类推...之后每个库中按hash取模的方式打到不同的数据表,查询也是如此
      垂直分-->根据字段的活跃程度分表(主表,扩展表)