MySQL百万数据优化一_mysql in 优化,最新阿里大数据开发高级面试题及答案

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip204888 (备注大数据)
img

正文

3.col_name为需要创建索引的字段列,该列必须从数据表中该定义的多个列中选择

4.index_name指定索引的名称,为可选参数,如果不指定,默认col_name为索引值

5.length为可选参数,表示索引的长度,只有字符串类型的字段才能指定索引长度

6.asc或desc指定升序或降序的索引值存储


普通索引 normal

normal 是最基本的索引,它没有任何限制,唯一任务是加快对数据的访问速度,最经常出现在查询条件(WHERE column=)或者排序条件(ORDERBY column)中的数据列创建索引

#直接创建索引
CREATE INDEX index_name ON table(column(length))

#修改表结构的方式添加索引
ALTER TABLE table_name ADD INDEX index_name ON (column(length))

#创建表的时候同时创建索引
CREATE TABLE `table` (
    `id` int(11) NOT NULL AUTO_INCREMENT ,
    `title` char(255) CHARACTER NOT NULL ,
    `content` text CHARACTER NULL ,
    `time` int(10) NULL DEFAULT NULL ,
    PRIMARY KEY (`id`),
    INDEX index_name (title(length))
)

#删除索引
DROP INDEX index_name ON table

唯一索引 unique

保证数据记录的唯一性,事实上,在许多场合,很多人创建唯一索引的目的往往不是为了提高访问速度,而只是为了避免数据出现重复

与前面的普通索引类似,不同的就是:索引列的值必须唯一,但允许有空值。如果是组合索引,则列值的组合必须唯一。

优点:

  • 保证数据库表中每一行数据的唯一性。
  • 大大提高检索的数据,以及减少表的检索行数。
  • 在表连接的连接条件,可以加速表与表直接的相连。
  • 在分组和排序字句进行数据检索,可以减少查询时间中分组和排序时所消耗的时间(数据库的记录会重新排序)。
#创建唯一索引
CREATE UNIQUE INDEX indexName ON table(column(length))

#修改表结构
ALTER TABLE table_name ADD UNIQUE indexName ON (column(length))

#创建表的时候直接指定
CREATE TABLE `table` (
    `id` int(11) NOT NULL AUTO_INCREMENT ,
    `title` char(255) CHARACTER NOT NULL ,
    `content` text CHARACTER NULL ,
    `time` int(10) NULL DEFAULT NULL ,
    UNIQUE indexName (title(length))
);

主键索引

一种特殊的唯一索引,一个表只能有一个主键,不允许有空值。一般是在建表的时候同时创建主键索引,主键索引与唯一索引的唯一区别是:前者在定义时使用的关键字是PRIMARY而不是UNIQUE

CREATE TABLE `table` (
    `id` int(11) NOT NULL AUTO_INCREMENT ,
    `name` char(255) NOT NULL ,
    PRIMARY KEY (`id`)
);

组合索引

指多个字段上创建的索引,只有在查询条件中使用了创建索引时的第一个字段,索引才会被使用。使用组合索引时遵循最左前缀集合

ALTER TABLE `table` ADD INDEX name_city_age (name,city,age); 

全文索引 fulltext

主要用来查找文本中的关键字,而不是直接与索引中的值相比较。fulltext索引跟其它索引大不相同,它更像是一个搜索引擎,而不是简单的where语句的参数匹配。fulltext索引配合match against操作使用,而不是一般的where语句加like。它可以在create table,alter table ,create index使用,不过目前只有char、varchar,text 列上可以创建全文索引。值得一提的是,在数据量较大时候,先将数据放入一个没有全局索引的表中,然后再用CREATE index创建fulltext索引,要先为一张表建立fulltext然后再将数据写入的速度快很多。

#创建表的适合添加全文索引
CREATE TABLE `table` (
    `id` int(11) NOT NULL AUTO_INCREMENT ,
    `title` char(255) CHARACTER NOT NULL ,
    `content` text CHARACTER NULL ,
    `time` int(10) NULL DEFAULT NULL ,
    PRIMARY KEY (`id`),
    FULLTEXT (content)
);

#修改表结构添加全文索引
ALTER TABLE article ADD FULLTEXT index_content(content)

#直接创建索引
CREATE FULLTEXT INDEX index_content ON article(content)

空间索引 spatial

  • 表示空间数值的数据类型
  • 操作空间数值的函数
  • 空间索引,用于提供访问空间列的速度
  • mysql的空间索引的数据结构是R树,R树实际上就是多维的B树

缺点

1.虽然索引大大提高了查询速度,同时却会降低更新表的速度,如对表进行insert、update和delete。因为更新表时,不仅要保存数据,还要保存一下索引文件。

2.建立索引会占用磁盘空间的索引文件。一般情况这个问题不太严重,但如果你在一个大表上创建了多种组合索引,索引文件的会增长很快。

索引只是提高效率的一个因素,如果有大数据量的表,就需要花时间研究建立最优秀的索引,或优化查询语句。

注意事项

使用索引时,有以下一些技巧和注意事项:

索引不会包含有null值的列

只要列中包含有null值都将不会被包含在索引中,复合索引中只要有一列含有null值,那么这一列对于此复合索引就是无效的。所以我们在数据库设计时不要让字段的默认值为null。

使用短索引

对串列进行索引,如果可能应该指定一个前缀长度。例如,如果有一个char(255)的列,如果在前10个或20个字符内,多数值是惟一的,那么就不要对整个列进行索引。短索引不仅可以提高查询速度而且可以节省磁盘空间和I/O操作。

索引列排序

查询只使用一个索引,因此如果where子句中已经使用了索引的话,那么order by中的列是不会使用索引的。因此数据库默认排序可以符合要求的情况下不要使用排序操作;尽量不要包含多个列的排序,如果需要最好给这些列创建复合索引。

不要在列上进行运算

这将导致索引失效而进行全表扫描,例如

SELECT * FROM table_name WHERE YEAR(column_name)<2022;

where  及order by 建立索引

读表时候,尽量的避免全表扫描,在where及order by涉及的列建立索引。


操作符

or、union all、union

在 MySQL 5.0 之前的版本要尽量避免使用 or 查询,可以使用 union 或者子查询来替代,因为早期的 MySQL 版本使用 or 查询可能会导致索引失效,在 MySQL 5.0 之后的版本中引入了索引合并,索引合并简单来说就是把多条件查询,比如or或and查询对多个索引分别进行条件扫描,然后将它们各自的结果进行合并,因此就不会导致索引失效的问题了如果从Explain执行计划的type列的值是index_merge可以看出MySQL使用索引合并的方式来执行对表的查询

未加索引

OR :

SELECT * FROM user WHERE age =10 or age=30 #耗时:2.465S

union all:

SELECT * FROM user WHERE age=30

union all

SELECT * FROM user WHERE age =10 #耗时:4.175s

普通索引

OR:

SELECT * FROM user WHERE age =10 or age=30 #耗时:1.292s

union all:

SELECT * FROM user WHERE age=30

union all

SELECT * FROM user WHERE age =10 #耗时:1.184s

union:

SELECT * FROM user WHERE age=30

union

SELECT * FROM user WHERE age =10 #1.944S

总结:为什么使用 union all 因为 union 操作会对结果去重且排序,所以从速度来说, union all会更胜一筹。

  1. union去重并排序,union all直接返回合并的结果,不去重也不排序;
  2. union all比union性能好;

对于OR不走索引的情况分析:

  1. userId(索引) OR age(没有索引):假设走了userId的索引,但是走到age查询条件时,还得全表扫描,也就是三步:索引扫描+全表扫描+合并

2.如果一开始就走全表扫描,直接一遍就可以了

**测试结果:**索引 or 没有索引 的条件 结果 type=ALL ; 两个不同索引:type=index_merge;


LIKE

注:当表数据较少(几千条),直接like ‘%xxx%’;不要画蛇添足

like有三种情况:

1、AAA从字符串开始的某个固定位置出现,可以创建函数索引进行优化

2、AAA从字符串结尾的某个固定位置出现,可以创建函数组合索引进行优化

3、AAA在字符串中位置不固定,可以通过改写SQL进行优化

未加索引

SELECT *  FROM `user` WHERE `address` LIKE  '%福建省%'  #耗时:11.732s
SELECT *  FROM `user` WHERE `address` LIKE  '福建省%'   #耗时:11.807s
SELECT *  FROM `user` WHERE `address` LIKE  '%福建省'  #耗时:11.677s

普通索引

like ‘%AAA%’:

SELECT * FROM user WHERE address LIKE ‘%福建省%’ #耗时:7.691s

like ‘AAA%’:

SELECT * FROM user WHERE address LIKE ‘福建省%’ #耗时:4.347s

like ‘%AAA’:

SELECT * FROM user WHERE address LIKE ‘%五街坊’ #耗时:6.633s

**结论:**只有普通索引 like ‘aaa%’ 走了索引,但是实际业务场景肯定会有like %aaaa%的情况,再看下面的测试

对 like ‘%AAA%’ 普通索引-NORMAL 优化

1.instr():

select * from user where instr(address, “福建省”) > 0; #耗时:5.259s

2.locate():

select * from user where locate(“福建省”,address ) > 0; #耗时:5.246s

这两种方案只是比不优化快几秒,但是不排除会比优化器慢,网络IO、服务器配置、数据结构等都可能影响不绝对

3.in():

select * from user where address in (select address from user where address like “%福建省%”); #耗时:14.588s

根据索引再回表的代价要看符合条件的记录数多少:如果in子查询返回的记录数很少,那么优化的效果就相当于效率提高了N倍;如果in子查询返回的记录数较多,两种SQL的性能区别就不是很明显

4.占位符:下划线代表一个字符,百分号表示任意字符

没有索引:SELECT * FROM user WHERE address LIKE ‘_%柳州市%’ #耗时3.020S

普通索引:SELECT * FROM user WHERE address LIKE ‘_%柳州市%’ #耗时3.331S

5.前缀法:

上面的SQL 的SQL总结来看只有: like AAA%" 花费时间比 like %AAA%" 快。所以可以取巧,在不用分词的方法的前提下,把存储address字段,加一个前缀,例如存储 address=柳州市xxxxx,那就可以address=‘福建省柳州市xxxxx’,福建省只是我现有数据做测试的前缀。实际查询出来去除掉前缀就可以了。

没有索引:SELECT * FROM user WHERE address LIKE ‘福建省%柳州市%’ #耗时:2.666s

普通索引: SELECT * FROM user WHERE address LIKE ‘福建省%柳州市%’ #耗时:0.656

小总结

没加索引:

**前缀耗时:**2.666S

**like '%AAA%'耗时:**11.732S

Like占位符耗时:3.020S

普通索引:

前缀耗时:0.656S

**like '%AAA%'耗时:**7.691S

**Like占位符耗时:**3.331S

**instr(address, “AAA”) > 0耗时:**5.259S

**locate(“AAA”,address ) > 0耗时:**5.246S


AND

-- 没有加索引
SELECT * FROM `user` WHERE age=10 AND sex='男' #耗时2.570S
-- 加普通索引
SELECT * FROM `user` WHERE age=10 AND sex='男' #耗时1.933S

组合索引

ALTER TABLE user ADD INDEX age_sex(age,sex);
SELECT * FROM `user` WHERE age=10 AND sex='男' #耗时:1.377S


in、not in 、 between、exists

not in():

SELECT * FROM user WHERE age NOT IN (1,2,3,4,5) #48.526S

in():

SELECT a.* FROM user a WHERE age in(1,2,3,4,5) #2.863S

SELECT a.* FROM user a WHERE age in(SELECT 1 FROM userWHERE age in(1,2,3,4,5)) #0.842S

exists:

SELECT a.* FROM user a WHERE a.id IN (SELECT id FROM user where id=a.id and age=5) #0.764S

SELECT a.* from user a where exists(select 1 from user where id=a.id and age=5) #0.791S

between:

SELECT * FROM user WHERE age BETWEEN 1 AND 5 #2.766

从以上结果中得出,只有NOT IN 才会全表扫描,但是网上很多博客说IN、NOT IN 都会导致全表扫描,但是我的测试结果只有NOT IN 才全表,不知道是不是我MySQL8.0的问题,希望有知道的大佬可以指教一下!

如果是子查询,可以用exists代替。详情见《MySql中如何用exists代替in》如下:

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加V获取:vip204888 (备注大数据)
img

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

between:

SELECT * FROM user WHERE age BETWEEN 1 AND 5 #2.766

从以上结果中得出,只有NOT IN 才会全表扫描,但是网上很多博客说IN、NOT IN 都会导致全表扫描,但是我的测试结果只有NOT IN 才全表,不知道是不是我MySQL8.0的问题,希望有知道的大佬可以指教一下!

如果是子查询,可以用exists代替。详情见《MySql中如何用exists代替in》如下:

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加V获取:vip204888 (备注大数据)
[外链图片转存中…(img-TlW29JEC-1713312373372)]

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 11
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值