Java岗大厂面试百日冲刺 - 日积月累，每日三题【Day4，大佬带你看源码

最新推荐文章于 2024-03-01 16:16:44 发布

MySQL王者之路

最新推荐文章于 2024-03-01 16:16:44 发布

阅读量177

点赞数

分类专栏： Java 文章标签： java 数据库面试后端

本文链接：https://blog.csdn.net/m0_60666570/article/details/120034624

版权

Java 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

性价比如上图，我们针对数据库的优化优先级大致如下：

高：从SQL优化、索引优化入手，优化慢SQL、利用好索引，是重中之重；
中：SQL优化之后，是对数据表结构设计、横纵分表分库，对数据量级的处理；
低：通过修改数据库系统配置，最大化里用服务器内存等资源；
低：通过以上方式还不行，那就是服务器资源瓶颈了，加机器。

优化成本：硬件 > 系统配置 > 数据库表结构 > SQL及索引。

优化效果：硬件 < 系统配置 < 数据库表结构 < SQL及索引。

深入追问：

追问1：那你对SQL优化方面有哪些技巧呢？

简单说对于SQL优化，就三点:

最大化利用索引；
尽可能避免全表扫描；
减少无效数据的查询；

首先要清楚SELECT语句 - 执行顺序：

FROM

<表名> # 选取表，将多个表数据通过笛卡尔积变成一个表。

ON

<筛选条件> # 对笛卡尔积的虚表进行筛选

JOIN <join, left join, right join…>

<join表> # 指定join，用于添加数据到on之后的虚表中，例如left join会将左表的剩余数据添加到虚表中

WHERE

<where条件> # 对上述虚表进行筛选

GROUP BY

<分组条件> # 分组

<SUM()等聚合函数> # 用于having子句进行判断，在书写上这类聚合函数是写在having判断里面的

HAVING

<分组筛选> # 对分组后的结果进行聚合筛选

SELECT

<返回数据列表> # 返回的单列必须在group by子句中，聚合函数除外

DISTINCT

#数据除重

ORDER BY

<排序条件> # 排序

LIMIT

<行数限制>

SQL优化策略:

声明：以下SQL优化策略适用于数据量较大的场景下，如果数据量较小，没必要以此为准，以免画蛇添足。

一、避免不走索引的场景

尽量避免在字段开头模糊查询，会导致数据库引擎放弃索引进行全表扫描。如下：


SELECT * FROM t WHERE username LIKE '%陈%'

优化方式：尽量在字段后面使用模糊查询。如下：（原因涉及B+Tree索引最左前缀原则，可以参考《MySQL最左匹配原则，道儿上兄弟都得知道的原则》）


SELECT * FROM t WHERE username LIKE '陈%'

如果需求是要在前面使用模糊查询，

使用MySQL内置函数INSTR(str,substr) 来匹配，作用类似于java中的indexOf()，查询字符串出现的角标位置，可参阅《MySQL模糊查询用法大全（正则、通配符、内置函数等）》
使用FullText全文索引，用match against 检索
数据量较大的情况，建议引用ElasticSearch、solr，亿级数据量检索速度秒级
当表数据量较少（几千条儿那种），别整花里胡哨的，直接用like ‘%xx%’。

尽量避免使用 or，会导致数据库引擎放弃索引进行全表扫描。如下：


SELECT * FROM t WHERE id = 1 OR id = 3

优化方式：可以用union代替or。如下：


SELECT * FROM t WHERE id = 1

   UNION

SELECT * FROM t WHERE id = 3

尽量避免进行null值的判断，会导致数据库引擎放弃索引进行全表扫描。如下：


SELECT * FROM t WHERE score IS NULL

优化方式：可以给字段添加默认值0，对0值进行判断。如下：


SELECT * FROM t WHERE score = 0

这里说明了字段设为not null的重要性，详细请参考之前博文《领导含泪叮嘱我：MySQL 建表字段记得用 not null，不然就收拾包袱滚蛋》

尽量避免在where条件中等号的左侧进行表达式、函数操作，会导致数据库引擎放弃索引进行全表扫描。

可以将表达式、函数操作移动到等号右侧。如下：


-- 全表扫描

SELECT * FROM T WHERE score/10 = 9

-- 走索引

SELECT * FROM T WHERE score = 10*9

当数据量大时，避免使用where 1=1的条件。通常为了方便拼装查询条件，我们会默认使用该条件，数据库引擎会放弃索引进行全表扫描。如下：


SELECT username, age, sex FROM T WHERE 1=1

优化方式：用代码拼装sql时进行判断，没 where 条件就去掉 where，有where条件就加 and。

查询条件不要用 <> 或者 !=

使用索引列作为条件进行查询时，需要避免使用<>或者!=等判断条件。如确实业务需要，使用到不等于符号，需要在重新评估索引建立，避免在此字段上建立索引，改由查询条件中其他索引字段代替。

where条件仅包含复合索引非前置列

如下：复合（联合）索引包含key_part1，key_part2，key_part3三列，但SQL语句没有包含索引前置列"key_part1"，按照MySQL联合索引的最左匹配原则，不会走联合索引。。


select col1 from table where key_part2=1 and key_part3=2

了解其原理的同学可以参考《MySQL最左匹配原则，道儿上兄弟都得知道的原则》

隐式类型转换造成不使用索引

如下SQL语句由于索引对列类型为varchar，但给定的值为数值，涉及隐式类型转换，造成不能正确走索引。


select col1 from table where col_varchar=123;

了解其原理的同学可以参考《令人炸毛儿的MySQL隐式转换 - 无形之刃，最为致命》

order by 条件要与where中条件一致，否则order by不会利用索引进行排序


-- 不走age索引

SELECT * FROM t order by age;

 

-- 走age索引

SELECT * FROM t where age > 0 order by age;

对于上面的语句，数据库的处理顺序是：

第一步：根据where条件和统计信息生成执行计划，得到数据。
第二步：将得到的数据排序。当执行处理数据（order by）时，数据库会先查看第一步的执行计划，看order by 的字段是否在执行计划中利用了索引。如果是，则可以利用索引顺序而直接取得已经排好序的数据。如果不是，则重新进行排序操作。
第三步：返回排序后的数据。

当order by 中的字段出现在where条件中时，才会利用索引而不再二次排序，更准确的说，order by 中的字段在执行计划中利用了索引时，不用排序操作。

这个结论不仅对order by有效，对其他需要排序的操作也有效。比如group by 、union 、distinct等。

在这里插入图片描述

二、SELECT语句的一些其他优化

避免出现select *

首先，select * 操作在任何类型数据库中都不是一个好的SQL编写习惯。

使用select * 取出全部列，会让优化器无法完成索引覆盖扫描这类优化，会影响优化器对执行计划的选择，也会增加网络带宽消耗，更会带来额外的I/O,内存和CPU消耗。

建议提出业务实际需要的列数，将指定列名以取代select *。

具体详情见《为什么大家都说SELECT * 效率低》

避免出现不确定结果的函数

特定针对主从复制这类业务场景。由于原理上从库复制的是主库执行的语句，使用如now()、rand()、sysdate()、current_user()等不确定结果的函数很容易导致主库与从库相应的数据不一致。另外不确定值的函数,产生的SQL语句无法利用query cache。

多表关联查询时，小表在前，大表在后

在MySQL中，执行 from 后的表关联查询是从左往右执行的（Oracle相反），第一张表会涉及到全表扫描，所以将小表放在前面，先扫小表，扫描快效率较高，在扫描后面的大表，或许只扫描大表的前100行就符合返回条件并return了。

例如：表1有50条数据，表2有30亿条数据；如果全表扫描表2，你品，那就先去吃个饭再说吧是吧。

在这里插入图片描述

使用表的别名

当在SQL语句中连接多个表时，请使用表的别名并把别名前缀于每个列名上。这样就可以减少解析的时间并减少哪些友列名歧义引起的语法错误。

用where字句替换HAVING字句

避免使用HAVING字句，因为HAVING只会在检索出所有记录之后才对结果集进行过滤，而where则是在聚合前刷选记录，如果能通过where字句限制记录的数目，那就能减少这方面的开销。HAVING中的条件一般用于聚合函数的过滤，除此之外，应该将条件写在where字句中。

where和having的区别：where后面不能使用组函数

调整Where字句中的连接顺序

MySQL采用从左往右，自上而下的顺序解析where子句。根据这个原理，应将过滤数据多的条件往前放，最快速度缩小结果集。对了，听说5.7版的语法解析器已经实现了where后条件的自动调节工作。查询条件很多的场景，建议不要做这种尝试。

追问2：嗯，那你说一下为什么不建议用SELECT * 呢？

在阿里代码规范中的《阿里java开发手册（泰山版）》（提取码：hb6i）MySQL 部分描述声明：

4 - 1. 【强制】在表查询中，一律不要使用 * 作为查询的字段列表，需要哪些字段必须明确写出。

增加查询分析器解析成本。

增减字段容易与 resultMap 配置不一致。

无用字段增加网络消耗，尤其是 text 类型的字段。

1. 不需要的列会增加数据传输时间和网络开销

用“SELECT * ”数据库需要解析更多的对象、字段、权限、属性等相关内容，在 SQL 语句复杂，硬解析较多的情况下，会对数据库造成沉重的负担。

增大网络开销；* 有时会误带上如log、IconMD5之类的无用且大文本字段，数据传输size会几何增涨。如果DB和应用程序不在同一台机器，这种开销非常明显。

即使 mysql 服务器和客户端是在同一台机器上，使用的协议还是 tcp，通信也是需要额外的时间。

2. 对于无用的大字段，如 varchar、blob、text，会增加 io 操作

准确来说，长度超过 728 字节的时候，会先把超出的数据序列化到另外一个地方，因此读取这条记录会增加一次 io 操作。（MySQL InnoDB）

3. 失去MySQL优化器“覆盖索引”策略优化的可能性

SELECT * 杜绝了覆盖索引的可能性，而基于MySQL优化器的“覆盖索引”策略又是速度极快，效率极高，业界极为推荐的查询优化方式。

在这里插入图片描述

课间休息，《垂钓者1》坐标：北京元大都遗址。😂

面试题2：你对分库分表是怎么看的呀？

=================================================================================

正经回答：

分库：由单个数据库实例拆分成多个数据库实例，将数据分布到多个数据库实例中。
分表：由单张表拆分成多张表，将数据划分到多张表内。

要知道，对于大型互联网项目，数据量级可能不是我们能想到的，每日新增数据量过千万是常有的事儿，想靠单台MySQL服务器是不现实的。你项羽在牛B，也顶不住四个队友挂机啊！！项羽：？？？

在这里插入图片描述

随着业务数据量和网站QPS日益增高，对数据库压力也越来越大，单机版数据库很快会到达存储和并发瓶颈，就需要做数据库性能方面的优化，分库分表采取的是分而治之的策略，分库目的是减轻单台MySQL实例存储压力及可扩展性，而分表是解决单张表数据过大以后查询的瓶颈问题，坦白说，这些问题也是所有关系型数据库的“硬伤”。

常用策略包括：垂直分表、水平分表、垂直分库、水平分库。

在这里插入图片描述

1、垂直分表

垂直分表，或者叫竖着切表，是不是感受到该策略是以字段为依据的！主要按照字段的活跃性、字段长度，将表中字段拆分到不同的表（主表和扩展表）中。

特点：

每个表的结构都不一样；
每个表的数据也不一样，
有一个关联字段，一般是主键或外键，用于关联兄弟表数据；
所有兄弟表的并集是该表的全量数据；

场景：

有几个字段属于热点字段，更新频率很高，要把这些字段单独切到一张表里，不然innodb行锁很恶心的，锁死你呀~~如用户表里的余额字段？不，我的余额就很稳定，一直是0。。
有大字段，如text，存储压力很大，毕竟innodb数据和索引是同一个文件；同时，我又喜欢用SELECT *，你懂得，这磁盘IO消耗的，跟玩儿似的，谁都扛不住的。
有明显的业务区分，或表结构设计时字段冗余；有些小伙伴看到第一点时，就发现陈哈哈是个菜鸡，用户表怎么会有余额字段？明显有问题啊！赶紧先到评论区喷陈哈哈一波~~然后笑嘻嘻的发现原来是个小尾巴，真不要脸是吧。。是的，因此不同业务我们要把具体字段拆开，这样才有利于业务后续扩展哦。

2、水平分表

水平分表，也叫“横着切”。。以行数据为依据进行切分，一般按照某列的自容进行切分。

如手机号表，我们可以通过前两位或前三位进行切分，如131、132、133 → phone_131、phone_132、phone_133，手机号有11位（100亿），量大是很正常的事儿，这年头谁家老头老太太每个手机呢是吧。这样切就把一张大表切成了好几十张小表，数据量不就下来了。有同学就问了那我怎么知道我这手机号查哪个表呢？一看你就没认真看前两行标红的点，为啥标红嘞？比如我查13100001111，那我截取前三位，动态拼接到查询的表名上，就行了。

特点：

每个表的结构都一样；
每个表的数据都不一样，没有交集；
所有表的并集是该表的全量数据；

场景：单表的数据量过大或增长速度很快，已经影响或即将会影响SQL查询效率，加重了CPU负担，提前到达瓶颈。记得水平分表越早越好，别问我为什么。。

你要有兴趣试一试，就关注我，让csdn研发同学给我的粉丝们分个表哈哈。。算了，别做梦了，忘了你是个菜狗了么~

在这里插入图片描述

花里胡哨的 - 分库

需要你注意的是，传统的分库和我们熟悉的集群、主从复制可不是一个事儿；多节点集群是将一个库复制成N个库，从而通过读写分离实现多个MySQL服务的负载均衡，实际是围绕一个库来搞的，这个库称为Master主库。而分库就不同了，分库是将这个主库一分为N，比如一分为二，然后针对这两个主库，再配置2N个从库节点。

3、垂直分库

纵向切库，太经典的切分方式，基于表进行切分，通常是把新的业务模块或集成公共模块拆分出去，比如我们最熟悉的单点登录、鉴权模块。熟悉的味道，记得有一次我把一些没用的表切到一个性能很好的服务器中，这服务器我专门用来学习，后来也不知被哪个狗腿子告密了~ 我**你个**，有种站出来，你个**东西😅😅。

在这里插入图片描述

特点：

每个库的表都不一样；
表不一样，数据就更不一样了~ 没有任何交集；
每个库相对独立，模块化

场景：可以抽象出单独的业务模块时，可以抽象出公共区时（如字典、公共时间、公共配置等），或者想有一台属于自己的服务器时？

4、水平分库

以行数据为依据，将一个库中的数据拆分到多个库中。大型分表体验一下？坦白说这种策略并不实用，因为会对后台开发很不友好，有很多坑，不建议采用，理解即可。

特点：

每个库的结构都一样；
每个库的数据都不一样，没有交集；
所有库的并集是全量数据；

场景：系统绝对并发量上来了，CPU内存压力大。分表难以根本上解决量的问题，并且还没有明显的业务归属来垂直分库，主库磁盘接近饱和。

其实，在实际工作中，我们在选择分库分表策略前，想到的应该是从缓存、读写分离、SQL优化等方面，因为这些能够更直接、代价更小的解决问题。要记住动表就是动根本，你永远不知道这张表后面会连带多少历史遗留问题，如果是个很大型的项目，遇到些问题你就跟经理提议要分库分表，小心被呼死~

深入追问：

追问1：毫无意义，我真的不想问他MySQL问题了🙃🙃

在这里插入图片描述

课间休息，《垂钓者2》坐标：北京亮马河。😂😂

最后

整理的这些资料希望对Java开发的朋友们有所参考以及少走弯路，本文的重点是你有没有收获与成长，其余的都不重要，希望读者们能谨记这一点。

CodeChina开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频】

追问1：毫无意义，我真的不想问他MySQL问题了🙃🙃

在这里插入图片描述

课间休息，《垂钓者2》坐标：北京亮马河。😂😂

最后

整理的这些资料希望对Java开发的朋友们有所参考以及少走弯路，本文的重点是你有没有收获与成长，其余的都不重要，希望读者们能谨记这一点。

[外链图片转存中…(img-Pquyk9kZ-1630464063171)]

[外链图片转存中…(img-C5uGPNwh-1630464063173)]

CodeChina开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频】

其实面试这一块早在第一个说的25大面试专题就全都有的。以上提及的这些全部的面试+学习的各种笔记资料，我这差不多来回搞了三个多月，收集整理真的很不容易，其中还有很多自己的一些知识总结。正是因为很麻烦，所以对以上这些学习复习资料感兴趣，

MySQL王者之路

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Java岗大厂面试百日冲刺 - 日积月累，每日三题【Day4，大佬带你看源码

性价比如上图，我们针对数据库的优化优先级大致如下：高：从SQL优化、索引优化入手，优化慢SQL、利用好索引，是重中之重；中：SQL优化之后，是对数据表结构设计、横纵分表分库，对数据量级的处理；低：通过修改数据库系统配置，最大化里用服务器内存等资源；低：通过以上方式还不行，那就是服务器资源瓶颈了，加机器。优化成本：硬件 > 系统配置 > 数据库表结构 > SQL及索引。优化效果：硬件 < 系统配置 < 数据库表结构 < SQL及索引。
复制链接

扫一扫