搜索引擎（搜索引擎核心理论）

最新推荐文章于 2020-11-26 06:55:03 发布

weixin_34277853

最新推荐文章于 2020-11-26 06:55:03 发布

阅读量517

点赞数

文章标签：数据库 java python

原文链接：https://my.oschina.net/u/3728166/blog/3001923

版权

2019独角兽企业重金招聘Python工程师标准>>>

学习目标

1.明白为什么需要搜索引擎。
2.明白搜索引擎技术是什么、用来解决什么问题（场景）的。明白什么时候该用它。
3.明白搜索引擎是怎么解决问题的，熟悉搜索引擎的核心概念、工作流程、原理。
4.了解市面上常用的搜索引擎框架

理论学习

议题1：为什么需要搜索引擎？

问题1：我们的应用中一般用什么来存储数据？

问题2：我们经常浏览新闻、博客、商品，存储这些数据的表都应有哪些字段？

它们至少有下面这些字段

问题3：在数据库中如何做查询？以新闻表为例

按类别查
按时间查
按标题模糊查询，查询标题与钓鱼岛有关的新闻
按关键字查询，如查询与苍老师有关的新闻

问题4：当数据量变大时，这四个查询都变慢了，该如何优化？

常用的数据库优化方法：

1.建索引 2.分区表

问题5：建索引对 “查询标题与钓鱼岛有关的新闻” 和 “查询与苍老师有关的新闻” 有效果吗？

问题6：索引的原理是怎样的？

问题7：索引的排序，是怎么排的？

1.数值列 2.时间列 3.文本列

问题8：在新闻标题列上建索引，当我们查询标题 = ‘钓鱼岛’，数据库会怎么去查？而当我们查询标题 LIKE ‘%钓鱼岛%’ ，数据库该如何去查？

问题9：在数据库中如何判断一个列是否可以建索引？
基本原则：
表经常被访问，且数据量很大，而每次查询的数据只占很小很小一部分
列的数据值分布范围广泛
列中包含大量空值
列被经常用在查询条件中（不能是包含在表达式中）

文本列需特殊考虑：经常是用作模糊查询，则不适合建索引。精确查询则可。

问题10：如果要对查询出来的结果进行相关度排名，数据库能否做到？

如：要查询苍老师、tony、火锅有关的新闻：含有三个关键字（相关度最高）的新闻排前面含两个关键字（相关度次之），排次之含一个关键字的，排次次之。如果要对搜索的新闻字段设置不同的权重，比如新闻标题中包含这三个关键字的新闻的相关性就远高于新闻内容中包含这三个字。数据库能否做到？

理论学习

结构化数据：用表、字段表示的数据

半结构化数据： xml html

非结构化数据：文本、文档、图片、音频、视频等

结论：数据库适合结构化数据的精确查询，而不适合半结构化、非结构化数据的模糊查询及灵活搜索（特别是数据量大时），无法提供想要的实时性。

问题11：建索引对表的增、删、改操作有效率影响没？

所以为什么需要搜索引擎？

结论：数据库适合结构化数据的精确查询，而不适合半结构化、非结构化数据的模糊查询及灵活搜索（特别是数据量大时），无法提供想要的实时性。

议题2：如何做才能快速查询到与苍老师有关的新闻？

分析：我们查询时，输入的是苍老师，想要得到标题或内容中包含“苍老师”的新闻列表。

如果标题、内容列上都有一个这样的索引，里面能快速找到与苍老师关键字对应的文章id，再根据文章id就可以快速找到文章了。

问题1：你觉得这个索引的结构是怎样的？

问题2：为什么称为倒排索引？

英文原名Inverted index，失败地被翻译成了倒排索引。而应该翻译为：反向索引

问题3：下面这两个索引可以合并在一起吗？

问题4：反向索引的记录数会不会很大？

如果是英文的，最大是多少？如果是中文的，最大可能是多少？

结论：量不会很大，30万以内；通过这个索引找文章会很快。

问题5：如何建立这样一个索引？

数据示例

新闻id：1
新闻标题：Tony 与苍老师一起吃火锅
新闻内容：2018年4月1日，Tony 在四川成都出席某活动时，碰巧主办方也邀请了苍老师来提高人气，在主办方的邀请下和苍老师一起吃了个火锅，很爽！

怎样为上面的新闻文章建立反向索引？

一句话怎么分成多个词？人能分，计算机能不能分？

如果是英文文章，好不好分？ It’s one thing to find the 10 best documents to match your query

英文好分（有空格），中文则不好分。但一定得要分，否则无法建立反向索引。

就必须写一套专门的程序来做这个事情：分词器

问题6：分词器与自然语言的关系是怎样？

每门语言有对应的分词器

问题7：如果要开发一个中文分词器，你觉得该怎么实现对一句话进行分词？

语句示例：张三说的确实在理。

分析

机器不会分，而我们人会分。

问1：我们人是怎么分的？

从头开始一个一个字读，通过前后字的组合，分出：张三、说的、确实、在理

问2：我们是怎么确定张三、说的、确实是词？

因为我们的大脑里有个词的字典，通过与字典匹配，而确定。

问3：为什么我们不会分出：张三、说的、的确、确实、实在、在理？

因为我们的大脑可以进行歧义分析。

中文分词器原理：有个词的字典，对语句前后字进行组合，与字典匹配，歧义分析

问题8： java开源中文分词器有哪些？

百度：中文分词器

有很多，如何选择？

准确率分词效率中英文混合分词支持

常用中文分词器

IKAnalyzer mmseg4j

专业的商用分词器，在词典匹配的基础上加入统计以及机器学习、人工标注。能很好处理歧义和未登录词问题，分词速度慢些。百度、谷歌

问题9： 分词器在分词时能不能统计出词的出现次数、位置？

这两个数值有什么用？

问题10： 你、我、他、的、地、了、标点符号…..这些需要为其创建索引吗？

这些词称为：停用词。分词器支持指定/添加停用词

问题11： 当出现了新词了，该怎么办？

分词器应支持为其词典添加新词。

根据分词结果，我们创建反向索引，如下所示：

结论：使用分词器对数据进行分词，创建反向索引。

议题3：有了反向索引了，如何进行搜索？

如想搜索与 “tony OR 苍老师” 相关的新闻步骤是怎样的？

步骤1： 对搜索输入进行分词

tony 、苍老师

步骤2： 在反向索引中找出包含tony、苍老师的文章列表

步骤3： 合并两个列表，排序输出

{1,12,8,5}

问题1：合并后列表该如何排序？

我们希望最相关的排在最前面

问题2： 相关性如何度量？

问1：我们是如何确定相关的？

包含要找的词

问2：如何确定更相关？

人可以通过读内容判定相关性，机器不懂人话。

得建立一套能评估相关性的模型。

我们前面在分词器中统计出的词的出现次数，可以用来建立这个模型吗？评判的规则怎么定？

议题4：如何建立一个相关性评估模型？

利用出现次数来建立模型

规则1： 统计出现次数，根据次数从高到低排

{{1,5},{5,3},{12,1},{8,1}}

问题1：标题中出现苍老师，与新闻的内容中出现苍老师，哪个是专门写苍老师的相关度高些？怎么做

规则2： 加入权重，标题权重10，内容权重1，计算权重得分，按高-低排序

{{1,23},{12,10},{5,3},{8,1}}

这个相关性模型很简单。有时排序会不很准确。

复杂的相关性计算模型有：

tf-idf 词频-逆文档率模型

向量空间模型

贝叶斯概率模型，如： BM25

搜索引擎中会提供一种、或多种实现供选择使用，也会提供扩展。电商网站中的搜索相关性计算会考虑更多，更复杂。

议题5：反向索引更新：数据更新时，索引是不是必须得更新？好更新吗？

更新情况分析：

问1：新增时，需要怎么更新？

问2：删除时，需要怎么更新？

问3：修改时，需要怎么更新？

思考1：实时更新在什么情况下可做，什么情况下不可做？什么情况下必须得做？

思考2：搜索引擎巨头百度、谷歌，它们的网页搜索的反向索引是更新还是重建？

议题6：反向索引是存储在内存中，还是磁盘中合适？

反向索引会有多大？

议题7：搜索引擎需要支持精确搜索吗？需要支持像数据库一样的多条件AND OR 组合搜索吗？

如类别 IN () 数值 > = < 时间

总结

1、搜索引擎是什么？

一套可对大量结构化、半结构化数据、非结构化文本类数据进行实时搜索的专门软件

最早应用于信息检索领域，经谷歌、百度等公司推出网页搜索而为大众广知。后又被各大电商网站采用来做网站的商品搜索。现广泛应用于各行业、互联网应用。是大型系统、网站架构师必备技能。

2、搜索引擎是用来解决什么问题的？

专门解决大量结构化、半结构化数据、非结构化文本类数据的实时检索问题。这种实时搜索数据库做不了。

3、搜索引擎适合什么场景使用？

大量结构化、半结构化、非结构化文本类数据的实时搜索

信息检索（如电子图书馆、电子档案馆）
网页搜索
内容提供网站的内容搜索（如新闻、论坛、博客网站）
电子商务网站的商品搜索
如果你负责的系统数据量大，通过数据库检索慢，可以考虑用搜索引擎来专门负责检索。

4、搜索引擎由哪些核心部件构成？

数据源
分词器
反向索引（倒排索引）
相关性计算模型

5、搜索引擎的工作原理是怎样的？

1、从数据源加载数据，分词、建立反向索引
2、搜索时，对搜索输入进行分词，查找反向索引
3、计算相关性，排序，输出

6、要实现一个搜索引擎，需要实现哪些？

1、分词器
2、反向索引，索引存储
3、相关性计算模型

7、要去使用一个搜索引擎，需要搞清楚它的哪些方面？

1、分词器
2、反向索引建立、存储、更新
3、相关性计算模型

8、java领域应用广泛的开源搜索引擎组件、系统

Lucene：Apache顶级开源项目，Lucene-core是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的框架，提供了完整的查询引擎和索引引擎，部分文本分词引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

Nutch：Apache顶级开源项目，包含网络爬虫和搜索引擎(基于lucene)的系统（同百度、google）。Hadoop因它而生。

Solr：Lucene下的子项目，基于Lucene构建的独立的企业级开源搜索平台，一个服务。它提供了基于xml/JSON/http的api供外界访问，还有web管理界面。

Elasticsearch：基于Lucene的企业级分布式搜索平台，它对外提供restful-web接口，让程序员可以轻松、方便使用搜索平台，而不需要了解Lucene。

问：如何选择搜索引擎组件或系统？

看成熟度，使用企业量。

转载于:https://my.oschina.net/u/3728166/blog/3001923