高性能MySql读书笔记

最新推荐文章于 2024-07-31 06:19:57 发布

一招鲜@Q

最新推荐文章于 2024-07-31 06:19:57 发布

阅读量477

点赞数

分类专栏： Mysql

本文链接：https://blog.csdn.net/qq_30715329/article/details/90346537

版权

Mysql 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

以下是Xmind笔记，看着有些费劲。。。记录下

高性能Mysql
   mysql架构和基础
       mysql逻辑架构图
           客户端
           服务器层
               连接/线程处理、查询缓存、解析器、优化器
           存储引擎
       锁粒度
           表锁：服务器会为诸如 alter Table之类语句使用表锁，而忽略存储引擎的锁机制
           行级锁：只在存储引擎层，不在服务器层
       事务
           ACID
               atomicity 原子性
               consistency 一致性
               isolation 隔离性
               durability 持久性
           隔离级别
               Read uncommitted
               Read committed
               Repeatable read (mysql默认)
               Serializable 可串行化
           死锁
               InnoDB 处理方法：将持有最少行级排它锁的事务进行回滚
           服务器层不管理事务，是由下层的存储引擎实现的。最好不要在事务中混合使用存储引擎（InnoDB-事务型、MyIsAM-非事务型）
       MVCC 多版本并发控制
           在每条记录后保留2条隐藏的列：行版本号、行删除版本号。每开始一个事务，系统版本号自动递增。Select：只查【行版本号<=当前系统版本号 && 行删除版本要么未定义，要么大于当前系统版本号--确保未被删除】。
       存储引擎
           InnoDB (mysql默认)
               事务型、高并发间隙锁、聚簇索引、热备份
           MyIsAM
               不支持事务(没有回滚)、不支持行级锁、不支持崩溃后的安全恢复
               对整张表加锁
               对于只读数据可以考虑
       导入导出
           Create table a Like b; Insert into a Select * from b;
   Schema与数据类型优化
       数据类型
           整数类型： -2^(N-1)到2^(N-1)-1. Unsigned。INT(11) 指定宽度，只是规定了交互工具(mysql命令行客户端)来显示字符的个数，值的合法范围，比如INT(1)和INT(20)是相同
           实数类型：DECIMAL ，数据量大时也可以用BIGINT代替
           字符串类型
               VARCHAR 可变长字符串、CHAR 定长，括号里的是字符数
               ENUM 枚举代替字符串类型
           日期和时间类型：TIMESTAMP(1970年-2038年) 效率更高、DATATIME(1001年-9999年)
           IPv4地址：32位无符号整数，不是字符串
       范式和反范式
           第一范式：无重复的列
           第二范式：属性完全依赖于主键
           第三范式：属性不依赖于其他表的非主键
           反范式可以避免表关联，所以一般是混用范式和反范式
       缓存表与汇总表
           缓存表：存储从其他表获取速度慢的信息，例如逻辑上冗余的数据
           汇总表：保存 Group By语句聚合数据，例如逻辑上不冗余的数据
       总结
           一切为了更快地读，更慢地写
           尽量使用可以正确存储数据的最小数据类型
           尽量 NOT NULL
   索引
       索引类型
           BTREE，InnoDB使用B+Tree，通过比较节点页的值和要查找的值找到合适的指针进入下层子节点（二分查找），有序的
           哈希索引：对索引列计算一个哈希码
               InnoDB有自定义哈希索引：当注意到某些索引列被使用得非常频繁时，它会在内存中基于BTree索引之上再创建一个哈希索引，自动的内部行为
               创建自定义哈希索引
                   新增一个被索引的url_crc 列
                   Select id From url Where url_crc=CRC32("http://myslq.com") And url="http://myslq.com";
               无法排序、不支持部分索引列匹配查找、不支持范围查询
       索引策略
           独立的列：索引列不能是表达式的一部分，也不能是函数的参数
           前缀索引
               索引开始的部分字符，提高索引效率。对于BLOB、Text、很长的VARCHAR，必须使用前缀索引
               索引的选择性：不重复的索引值（基数）/数据表的记录总数（#T），1/#T到1之间，例如唯一索引的选择性=1 --P154
               无法Order By 和Group By，无法覆盖扫描
           多列索引
               在多个列上建立独立的单列索引大部分情况下不能提高mysql的查询性能
               Or -> UNION ALL
               选择合适的索引列顺序：当不需要考虑排序和分组时，将选择性最高的列放在前面通常是最好的
           聚簇索引 (InnoDB)
               数据存储方式，表示数据行和相邻的键值紧凑地存储在一起。一般一个表只能有一个聚簇索引
               叶子页包含了行的全部数据，但是节点页只包含了索引列
               缺点：二级索引访问需要俩次索引查找。存储引擎需要找到二级索引的叶子节点获得对应的主键列，然后根据这个值取聚簇索引中查找到对应的行
               聚簇索引：主键索引，非聚簇索引：二级索引 --P167
           主键索引：Auto_Increment
               并发插入可能导致间隙锁竞争，innodb_autonic_lock_mode配置=0：锁，保证ID连续； >=1: 性能提升，ID可能不连续
           覆盖索引
               定义：一个索引包含所有需要查询的字段的值
               由于InnoDB的聚簇索引，覆盖索引对InnoDB表非常有用：若二级主键能覆盖查询，则可以避免对主键索引的二次查询。
               延迟关联： P174、P187
                   Select name,sex From profiles Where sex='M' Order By rating Limit 100000,10
                   转化为 Select name,sex From profiles Inner Join( Select id From profiles where x.sex='M' Order By rating Limit 100000,10) As x Using(id);
           索引扫描来做排序
               EXPLAIN出来的type列："index"
               若索引不能覆盖查询所需的列，按索引顺序读取的速度通常要慢于顺序全表扫描，因为每扫描一条索引都得回表查询
               OrderBy 索引最左前缀
               查询需要关联多表，则只当OrderBy子句所引用的字段全部为第一个表时，才能使索引用作排序
       总结
           BTree索引的限制
               最左前缀
               不能跳过索引的列
               若查询中有某个列的范围查询，则其右边所有列都无法使用索引优化查找
           mysql 不能在索引中执行LIKE操作
           只在索引中做最左前缀匹配的LIKE比较，若是通配符开头的LIKE查询，将无法匹配
           尽量扩展已有索引而不是创建新索引，但有时出于性能考虑需要冗余索引
           id > 45 转化为 id IN (1,4,99) ：范围条件查询，就无法使用范围列后面的其他索引列，但是对于多个等值查询就可以
   查询性能优化
       慢查询
           是否向数据库请求了不需要的数据？ LIMIT、只取需要的列
           是否在扫描额外的记录？
“Extra: Using Where”: Mysql将通过Where条件来筛选存储引擎返回的记录
               索引中使用where 是在存储引擎层完成
               索引覆盖扫描（Extra：Using index）直接从索引中过滤不需要的记录并返回命中结果，无须再回表查询，Mysql服务器层完成
               Using Where 需要先从数据表读出记录然后过滤，Mysql服务器层完成
       重构查询方式
           大查询分解成多个小查询
           分解关联查询
               让缓存的效率更高：关联中的某个表变化，就无法使用查询缓存，
拆分后，某个表很少变化可重复利用查询缓存结果
       查询的过程 -图P204
           mysql客户端/服务端通信协议
               半双工，要么服务器向客户端发数据，要么客户端到服务器，俩个动作不能同时发生
               库函数实际是从缓存获取数据
               查询状态 -P207
           查询缓存
               查询优化器
                   静态优化：直接对解析树分析优化，第一次完成后一直有效，编译时优化
                       Or -> IN（）先对列表内数据排序，再二分查找，O（log N）优于O（N）
                   动态优化
               关联查询：嵌套循环关联
                   先在一个表循环取出单条数据，再嵌套循环到下一个表寻找匹配的行，直到找到所有表的匹配的行为止，然后回溯到上一个表
                   关联查询优化器评估不同顺序的成本来选一个代价最小的关联顺序
               排序优化不能用索引生成排序结果时，需自己排序（filesort）
                   俩次传输排序， I/O成本高
                   单次传输排序，当查询需要所有列的总长度不超过参数
max_length_for_sort_data ,Mysql使用此排序算法。
           查询执行引擎
               逐步执行计划
           返回结果给客户端
               增量、逐步返回的过程
       查询优化器的局限性
           糟糕：Where条件中包含IN（）的子查询语句
               Select * From film Where film_id IN（
Select film_id From film_actor Where actor_id = 1）
               转化为
Select film.* From film inner Join film_actor Using(film_id) Where actor_id = 1
           UNION
               Union的各个子句中分别使用这些 Order By、Limit
       优化特定类型查询
           Count
               count（列值）：不统计列值NULL
               最好用Count（*）
           优化关联查询
               确保Group By和Order By只涉及到一个表中的列，这样索引才可以优化
           优化子查询
               尽量用关联查询代替
           优化Limit 分页
               延迟关联 -见上一章
           优化UNION查询
               创建并填充临时表来执行Union查询；尽量用Union All，否则会对整个临时表做唯一性检查，代价高
           使用用户自定义变量
               Set @rownum := 0;
Select id,@rownum := @rownum + 1 AS rownum From actor
       总结
           分组查询：若可以，在应用程序中做超级聚合更好
           快速地完成事情：尽量使用Update 代替先Select For Update再Update的写法，因为事务提交的越快，持有锁的时间越短
           尽量少做事：看是否真的需要这么精确的计算，可以运用简单的方案过滤大多数数据
   高级特性
       分区表 (粗粒度)
           定义：是一个独立的逻辑表，但是底层由多个物理子表组成。底层表必须相同存储引擎
           CREATE TABLE sales(
   order_date DATETIME NOT NULL,
   -- other columns omitted
)ENGIN=InnoDB PARTITION BY RANG(Year(order_date))(
   PARTITION p_2010 values less than (2010),
   PARTITION p_2010 values less than (2010),
   PARTITION p_2010 values less than (2010),
   PARTITION p_catchall values less than MAXVALUE );,
               表达式返回的值是一个确定的整数，且不能是常数
           策略
               全量扫描数据，不要任何索引（根据分区的规则大致定位需要的数据位置）
               索引数据，并分离热点 (数据有明显的热点，可以单独放一个分区)
           可能的问题
               Null值会使分区过滤无效
                   PARTITION BY RANGE COLUMNS(order_date)
--直接使用列本身而不是基于列的函数，mysql5.5版本
               尽量分区列和索引列匹配
               限制分区的数量，一般最多100个左右分区
           总结
               要做Where条件带入分区列！！！
               根据粗粒度索引优势，通过分区过滤通常可以让查询扫描更少的数据。
       视图
           本身是一个虚拟表，不存放任何数据，返回的数据是从其他表中生成的
           CREATE VIEW Oceania AS
   Select * from country where continent = 'Oceania'
   With CHECK OPTION;
           合并算法、临时表算法（包含Group By、Distinct、聚合函数、Union、子查询）
           不支持在视图上建触发器
           只有合并算法的视图才可更新。
（update Oceania Set population = popluation * 1.1 Where Name='Australia'）
       存储过程
           适用于：相比查询执行的成本，解析和网络开销很明显
       触发器
           每个表的每个事件，最多只能定义一个触发器
           基于行的触发
           作用：实现更新反范式化数据、记录数据变更日志、系统维护任务、约束
       事件
           指定mysql 在某个时候执行一段代码，或者每隔一段时间间隔执行一段代码
       绑定变量
           SET @sql := 'Select id,first_name FROM actor where first_name=？'；
           客户端向服务器发送一个 sql 语句原型，服务器解析并存储这个 sql 部分执行计划，返回客户端处理句柄。以后每次执行这类查询，客户端都指定使用这个句柄。
       字符集和校对规则
           一种从二进制编码到字符的映射；校对：用于字符集的排序规则
           服务器 -> 数据库 -> 表，这是一个逐级继承的默认设置，最靠底层的默认设置影响
           大小写敏感：_cs 、_ci (case sensitive; case insensitive)；
字符串编码的二进制：_bin
               col2 CHAR(1) CHARSET utf8,
col3 CHAR(1) COLLATE latin1_bin
           只有排序查询要求的字符集与服务器数据的字符集相同的时候，才能使用索引进行排序
       全文索引（B-Tree）
           通过关键字匹配来进行查询过滤，基于相似度的查询
           只有MyISAM 支持全文索引，msql5.6版本后，InnoDB 也支持了
           自然语言的全文索引
               在整个索引中出现次数越少的词语，匹配时的相关度就越高
               SELECT　film_id,title, RIGHT(description,25)
From film_text
Where MATCH(title,description) AGAINST('factory casu');
               自动按照相似度进行排序
           布尔全文索引
               SELECT　film_id,title, RIGHT(description,25)
From film_text
Where MATCH(title,description) AGAINST('+factory +casu' IN BOOLEAN MODE);
               只有MyISAM 引擎才能使用
       查询缓存
           定义：缓存完整的select 查询结果
           默认应该关闭查询缓存；
若实在查询缓存作用很大，也要配置很小的查询缓存空间（几十兆）
           若查询语句包含任何不确定的函数，那么查询缓存不能找到缓存结果。如：current_date
           命中和写入的比率，Qcache_hits/Qcache_inserts >3:1 通常查询缓存是有效的；即缓存带来的资源节约大于其本身的资源消耗；
           Flush query cache: 碎片管理。小心用，因为无法访问查询缓存，服务器会僵死一段时间。
           query_cache_size 设置成0，来关闭查询缓存。
           总结：
               对于写密集型应用，直接禁用可以提高系统性能

一招鲜@Q

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
高性能MySql读书笔记

以下是Xmind笔记，看着有些费劲。。。记录下高性能Mysql mysql架构和基础 mysql逻辑架构图客户端服务器层连接/线程处理、查询缓存、解析器、优化器存储引擎锁粒度表锁：服务器会为诸如 alter Tabl...
复制链接

扫一扫

专栏目录