索引文件浅析

最新推荐文章于 2023-03-12 12:30:08 发布

「已注销」

最新推荐文章于 2023-03-12 12:30:08 发布

阅读量240

点赞数

本文链接：https://blog.csdn.net/jackson_zhou_cn/article/details/54584525

版权

目标：通过阅读本文能知道像Google、百度这样的搜索引擎能在毫秒级在海量数据中查找、返回搜素关键词的原理。本文通过和传统数据库的对比引出倒排索引的概念和结构。为进一步了解搜索引擎打下一个基础。

引言：数据库查找和搜索引擎查找的区别

让我们从熟悉的数据库，例如MySQL开始。下面这张表是常见的Mysql表，存放着一些电视剧的信息。

title	description	starringName	tag
诛仙青云志	草庙村少年张小凡（李易峰饰），在经历全村尽灭的惨案后，被青云门收归门……	李易峰,赵丽颖,杨紫,成毅,	古装,武侠,玄幻,诛仙,青云志 ,TFboys,李易峰,赵丽颖
笑傲江湖第三季	《笑傲江湖》第三季爆...	郭德纲,冯小刚,宋丹丹,百克力...	笑傲江湖,笑傲江湖第三季,笑傲江湖2016,笑傲江湖东方卫视
疯狂动物城	故事发生在一个所有哺...	金妮弗·古德温,杰森·贝特曼,伊德里斯·艾尔巴,珍妮·斯蕾特,,邦尼·亨特,,,J·K·西蒙斯,奥克塔维亚 ·斯宾瑟 , 艾伦 ·图代克 ,Shakira...	疯狂动物城,金妮弗·古德温,杰森·贝特曼,,拜伦·霍华德,瑞奇·摩尔
太行山上央视版	全剧始终贯穿着军民团...	唐国强,刘劲,郭连文,王伍福,姚居德,,,李晓枫...	内地剧,战争,军事,年代,农村,太行山上
荒原第一季	数世纪后，人类重回封...	吴彦祖,,莎拉·伯格,,马尔顿·索克斯,,,,史蒂芬·朗,...	荒原,美版西游记,动作,冒险,吴彦祖,荒芜之地
睡在我上铺的兄弟	沪都大学330宿舍的...	陈晓,秦岚,,,李现,王啸坤,余心恬 ,蓝盈莹,蒋雪鸣...	睡在我上铺的兄弟,,张琦,陈晓, 秦岚
倒霉爱神	性感可人的曼哈顿女孩...	琳赛·洛翰,克里斯·派恩,费松·拉夫,萨米拉·阿姆斯特朗,米西·派勒,布丽·特纳,克里斯·卡马克 ,Jonah,Falco...	其它

这样DBA可以通过组合关键词找到观众想看的某一部电视剧了。

和SQL语句比起来，我们大概可以将涉及的字段区分成：

摘要字段：用来展现结果的字段。

倒排索引字段：用来过滤筛选条件的字段。

正排字段：用来对结果排序的字段。

问：好好地数据库字段，为什么要拆分成这些？

答：因为搜索引擎不是存储引擎。Mysql为了保证数据完整性存储尽可能多的字段属性，但这些字段大部分都跟搜索没有关系。为了提高速度，搜索引擎会舍弃大部分不用的字段。同时根据字段的用途不同有不同的处理。

举例而言：对于倒排索引字段，因为涉及用户体验问题要求快速找到数据集，所以一般会全部放入主内存中。

对于正排字段，涉及到将用户关注的内容放到前面，因此会尽可能放入内存。

对于展现字段，则各自有各自的处理。有可能会放在硬盘，甚至有可能会放到其它机器上。

数据库查找 .：

1，效率太低。尽管《数据库原理》老师说可以对字段建索引，但千万级记录单条件查询仍需要3~4分钟甚至更久

2，不够智能，对查询要求高。例如“猪仙青云志”就找不到了。“我的老丈人会工夫”也找不到热播电视剧《我的岳父会武术》

3，排序结果不够理想：很多时候要在上百条结果中翻页，或者做二次处理。

对比一下搜索引擎：

1，高效率：千万级记录多条件查询可以在毫秒级返回结果

2，可以有智能纠错，可以进行拼音查找、笔画查找、前缀查找等

3， 80%以上概率前三条即为用户想要的查询结果。

初识索引:索引的结构

‘z`

docId	title	description	starringName	tag
123	诛仙青云志	草庙村少年张小凡（李易峰饰），在经历全村尽灭的惨案后，被青云门收归门……	李易峰,赵丽颖,杨紫,成毅,	古装,武侠,玄幻,诛仙,青云志,TFboys,李易峰, 赵丽颖
30778	笑傲江湖第三季	《笑傲江湖》第三季爆...	郭德纲,冯小刚,宋丹丹,百克力...	笑傲江湖,笑傲江湖第三季,笑傲江湖2016,笑傲江湖东方卫视