先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7
深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年最新大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
如果你需要这些资料,可以添加V获取:vip204888 (备注大数据)
正文
3.col_name为需要创建索引的字段列,该列必须从数据表中该定义的多个列中选择
4.index_name指定索引的名称,为可选参数,如果不指定,默认col_name为索引值
5.length为可选参数,表示索引的长度,只有字符串类型的字段才能指定索引长度
6.asc或desc指定升序或降序的索引值存储
普通索引 normal
normal 是最基本的索引,它没有任何限制,唯一任务是加快对数据的访问速度,最经常出现在查询条件(WHERE column=)或者排序条件(ORDERBY column)中的数据列创建索引
#直接创建索引
CREATE INDEX index_name ON table(column(length))
#修改表结构的方式添加索引
ALTER TABLE table_name ADD INDEX index_name ON (column(length))
#创建表的时候同时创建索引
CREATE TABLE `table` (
`id` int(11) NOT NULL AUTO_INCREMENT ,
`title` char(255) CHARACTER NOT NULL ,
`content` text CHARACTER NULL ,
`time` int(10) NULL DEFAULT NULL ,
PRIMARY KEY (`id`),
INDEX index_name (title(length))
)
#删除索引
DROP INDEX index_name ON table
唯一索引 unique
保证数据记录的唯一性,事实上,在许多场合,很多人创建唯一索引的目的往往不是为了提高访问速度,而只是为了避免数据出现重复
与前面的普通索引类似,不同的就是:索引列的值必须唯一,但允许有空值。如果是组合索引,则列值的组合必须唯一。
优点:
- 保证数据库表中每一行数据的唯一性。
- 大大提高检索的数据,以及减少表的检索行数。
- 在表连接的连接条件,可以加速表与表直接的相连。
- 在分组和排序字句进行数据检索,可以减少查询时间中分组和排序时所消耗的时间(数据库的记录会重新排序)。
#创建唯一索引
CREATE UNIQUE INDEX indexName ON table(column(length))
#修改表结构
ALTER TABLE table_name ADD UNIQUE indexName ON (column(length))
#创建表的时候直接指定
CREATE TABLE `table` (
`id` int(11) NOT NULL AUTO_INCREMENT ,
`title` char(255) CHARACTER NOT NULL ,
`content` text CHARACTER NULL ,
`time` int(10) NULL DEFAULT NULL ,
UNIQUE indexName (title(length))
);
主键索引
一种特殊的唯一索引,一个表只能有一个主键,不允许有空值。一般是在建表的时候同时创建主键索引,主键索引与唯一索引的唯一区别是:前者在定义时使用的关键字是PRIMARY而不是UNIQUE
CREATE TABLE `table` (
`id` int(11) NOT NULL AUTO_INCREMENT ,
`name` char(255) NOT NULL ,
PRIMARY KEY (`id`)
);
组合索引
指多个字段上创建的索引,只有在查询条件中使用了创建索引时的第一个字段,索引才会被使用。使用组合索引时遵循最左前缀集合
ALTER TABLE `table` ADD INDEX name_city_age (name,city,age);
全文索引 fulltext
主要用来查找文本中的关键字,而不是直接与索引中的值相比较。fulltext索引跟其它索引大不相同,它更像是一个搜索引擎,而不是简单的where语句的参数匹配。fulltext索引配合match against操作使用,而不是一般的where语句加like。它可以在create table,alter table ,create index使用,不过目前只有char、varchar,text 列上可以创建全文索引。值得一提的是,在数据量较大时候,先将数据放入一个没有全局索引的表中,然后再用CREATE index创建fulltext索引,要比先为一张表建立fulltext然后再将数据写入的速度快很多。
#创建表的适合添加全文索引
CREATE TABLE `table` (
`id` int(11) NOT NULL AUTO_INCREMENT ,
`title` char(255) CHARACTER NOT NULL ,
`content` text CHARACTER NULL ,
`time` int(10) NULL DEFAULT NULL ,
PRIMARY KEY (`id`),
FULLTEXT (content)
);
#修改表结构添加全文索引
ALTER TABLE article ADD FULLTEXT index_content(content)
#直接创建索引
CREATE FULLTEXT INDEX index_content ON article(content)
空间索引 spatial
- 表示空间数值的数据类型
- 操作空间数值的函数
- 空间索引,用于提供访问空间列的速度
- mysql的空间索引的数据结构是R树,R树实际上就是多维的B树
缺点
1.虽然索引大大提高了查询速度,同时却会降低更新表的速度,如对表进行insert、update和delete。因为更新表时,不仅要保存数据,还要保存一下索引文件。
2.建立索引会占用磁盘空间的索引文件。一般情况这个问题不太严重,但如果你在一个大表上创建了多种组合索引,索引文件的会增长很快。
索引只是提高效率的一个因素,如果有大数据量的表,就需要花时间研究建立最优秀的索引,或优化查询语句。
注意事项
使用索引时,有以下一些技巧和注意事项:
索引不会包含有null值的列
只要列中包含有null值都将不会被包含在索引中,复合索引中只要有一列含有null值,那么这一列对于此复合索引就是无效的。所以我们在数据库设计时不要让字段的默认值为null。
使用短索引
对串列进行索引,如果可能应该指定一个前缀长度。例如,如果有一个char(255)的列,如果在前10个或20个字符内,多数值是惟一的,那么就不要对整个列进行索引。短索引不仅可以提高查询速度而且可以节省磁盘空间和I/O操作。
索引列排序
查询只使用一个索引,因此如果where子句中已经使用了索引的话,那么order by中的列是不会使用索引的。因此数据库默认排序可以符合要求的情况下不要使用排序操作;尽量不要包含多个列的排序,如果需要最好给这些列创建复合索引。
不要在列上进行运算
这将导致索引失效而进行全表扫描,例如
SELECT * FROM table_name WHERE YEAR(column_name)<2022;
where 及order by 建立索引
读表时候,尽量的避免全表扫描,在where及order by涉及的列建立索引。
操作符
or、union all、union
在 MySQL 5.0 之前的版本要尽量避免使用 or 查询,可以使用 union 或者子查询来替代,因为早期的 MySQL 版本使用 or 查询可能会导致索引失效,在 MySQL 5.0 之后的版本中引入了索引合并,索引合并简单来说就是把多条件查询,比如or或and查询对多个索引分别进行条件扫描,然后将它们各自的结果进行合并,因此就不会导致索引失效的问题了如果从Explain执行计划的type列的值是index_merge可以看出MySQL使用索引合并的方式来执行对表的查询
未加索引
OR :
SELECT * FROM
user
WHERE age =10 or age=30 #耗时:2.465Sunion all:
SELECT * FROM
user
WHERE age=30union all
SELECT * FROM
user
WHERE age =10 #耗时:4.175s
普通索引
OR:
SELECT * FROM
user
WHERE age =10 or age=30 #耗时:1.292sunion all:
SELECT * FROM
user
WHERE age=30union all
SELECT * FROM
user
WHERE age =10 #耗时:1.184sunion:
SELECT * FROM user WHERE age=30
union
SELECT * FROM user WHERE age =10 #1.944S
总结:为什么使用 union all 因为 union 操作会对结果去重且排序,所以从速度来说, union all会更胜一筹。
- union去重并排序,union all直接返回合并的结果,不去重也不排序;
- union all比union性能好;
对于OR不走索引的情况分析:
- userId(索引) OR age(没有索引):假设走了userId的索引,但是走到age查询条件时,还得全表扫描,也就是三步:索引扫描+全表扫描+合并
2.如果一开始就走全表扫描,直接一遍就可以了
**测试结果:**索引 or 没有索引 的条件 结果 type=ALL ; 两个不同索引:type=index_merge;
LIKE
注:当表数据较少(几千条),直接like ‘%xxx%’;不要画蛇添足
like有三种情况:
1、AAA从字符串开始的某个固定位置出现,可以创建函数索引进行优化
2、AAA从字符串结尾的某个固定位置出现,可以创建函数组合索引进行优化
3、AAA在字符串中位置不固定,可以通过改写SQL进行优化
未加索引
SELECT * FROM `user` WHERE `address` LIKE '%福建省%' #耗时:11.732s
SELECT * FROM `user` WHERE `address` LIKE '福建省%' #耗时:11.807s
SELECT * FROM `user` WHERE `address` LIKE '%福建省' #耗时:11.677s
普通索引
like ‘%AAA%’:
SELECT * FROM
user
WHEREaddress
LIKE ‘%福建省%’ #耗时:7.691slike ‘AAA%’:
SELECT * FROM
user
WHEREaddress
LIKE ‘福建省%’ #耗时:4.347slike ‘%AAA’:
SELECT * FROM
user
WHEREaddress
LIKE ‘%五街坊’ #耗时:6.633s**结论:**只有普通索引 like ‘aaa%’ 走了索引,但是实际业务场景肯定会有like %aaaa%的情况,再看下面的测试
对 like ‘%AAA%’ 普通索引-NORMAL 优化
1.instr():
select * from
user
where instr(address, “福建省”) > 0; #耗时:5.259s2.locate():
select * from
user
where locate(“福建省”,address ) > 0; #耗时:5.246s这两种方案只是比不优化快几秒,但是不排除会比优化器慢,网络IO、服务器配置、数据结构等都可能影响不绝对
3.in():
select * from
user
where address in (select address fromuser
where address like “%福建省%”); #耗时:14.588s根据索引再回表的代价要看符合条件的记录数多少:如果in子查询返回的记录数很少,那么优化的效果就相当于效率提高了N倍;如果in子查询返回的记录数较多,两种SQL的性能区别就不是很明显
4.占位符:下划线代表一个字符,百分号表示任意字符
没有索引:SELECT * FROM
user
WHERE address LIKE ‘_%柳州市%’ #耗时3.020S普通索引:SELECT * FROM
user
WHERE address LIKE ‘_%柳州市%’ #耗时3.331S5.前缀法:
上面的SQL 的SQL总结来看只有: like AAA%" 花费时间比 like %AAA%" 快。所以可以取巧,在不用分词的方法的前提下,把存储address字段,加一个前缀,例如存储 address=柳州市xxxxx,那就可以address=‘福建省柳州市xxxxx’,福建省只是我现有数据做测试的前缀。实际查询出来去除掉前缀就可以了。
没有索引:SELECT * FROM
user
WHERE address LIKE ‘福建省%柳州市%’ #耗时:2.666s普通索引: SELECT * FROM
user
WHERE address LIKE ‘福建省%柳州市%’ #耗时:0.656
小总结:
没加索引:
**前缀耗时:**2.666S
**like '%AAA%'耗时:**11.732S
Like占位符耗时:3.020S
普通索引:
前缀耗时:0.656S
**like '%AAA%'耗时:**7.691S
**Like占位符耗时:**3.331S
**instr(address, “AAA”) > 0耗时:**5.259S
**locate(“AAA”,address ) > 0耗时:**5.246S
AND
-- 没有加索引
SELECT * FROM `user` WHERE age=10 AND sex='男' #耗时2.570S
-- 加普通索引
SELECT * FROM `user` WHERE age=10 AND sex='男' #耗时1.933S
组合索引
ALTER TABLE user ADD INDEX age_sex(age,sex);
SELECT * FROM `user` WHERE age=10 AND sex='男' #耗时:1.377S
in、not in 、 between、exists
not in():
SELECT * FROM
user
WHERE age NOT IN (1,2,3,4,5) #48.526Sin():
SELECT a.* FROM user a WHERE age in(1,2,3,4,5) #2.863S
SELECT a.* FROM user a WHERE age in(SELECT 1 FROM userWHERE age in(1,2,3,4,5)) #0.842S
exists:
SELECT a.* FROM user a WHERE a.id IN (SELECT id FROM user where id=a.id and age=5) #0.764S
SELECT a.* from user a where exists(select 1 from user where id=a.id and age=5) #0.791S
between:
SELECT * FROM
user
WHERE age BETWEEN 1 AND 5 #2.766
从以上结果中得出,只有NOT IN 才会全表扫描,但是网上很多博客说IN、NOT IN 都会导致全表扫描,但是我的测试结果只有NOT IN 才全表,不知道是不是我MySQL8.0的问题,希望有知道的大佬可以指教一下!
如果是子查询,可以用exists代替。详情见《MySql中如何用exists代替in》如下:
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
需要这份系统化的资料的朋友,可以添加V获取:vip204888 (备注大数据)
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
between:
SELECT * FROM
user
WHERE age BETWEEN 1 AND 5 #2.766
从以上结果中得出,只有NOT IN 才会全表扫描,但是网上很多博客说IN、NOT IN 都会导致全表扫描,但是我的测试结果只有NOT IN 才全表,不知道是不是我MySQL8.0的问题,希望有知道的大佬可以指教一下!
如果是子查询,可以用exists代替。详情见《MySql中如何用exists代替in》如下:
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
需要这份系统化的资料的朋友,可以添加V获取:vip204888 (备注大数据)
[外链图片转存中…(img-TlW29JEC-1713312373372)]
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!