海量数据搜索——搜索引擎

宜信技术学院

于 2018-11-14 17:57:12 发布

阅读量6.3k

点赞数 1

文章标签：搜索引擎

本文链接：https://blog.csdn.net/gao2175/article/details/84070909

版权

本文介绍了搜索引擎的基本概念，包括其工作原理、分类和作用。重点讲述了全文索引，特别是百度使用的类型，并以Solr为例，讲解了其特点、安装配置及分词器的使用。还介绍了倒排索引算法在搜索引擎中的应用，以及如何在Windows上安装和配置Solr。

摘要由CSDN通过智能技术生成

在我们平常的生活工作中，百度、谷歌这些搜索网站已经成为了我们受教解惑的学校，俗话说的好，有问题找度娘。那么百度是如何在海里数据中找到自己需要的数据呢，为什么他搜索的速度如此之快，我们都知道是因为百度的搜索引擎，那么搜索引擎到底是个什么东西呢？可能有的程序员会想到es，但是并不能代表搜索引擎，它只是其中的一种工具，不过这种工具确实好用，效率很高。

　　本文会向大家讲述搜索引擎的基本知识以及中文分词的一些方法、然后会做一个小的demo去尝试一下数据检索。让大家初步了解搜索引擎的实现

一. 搜索引擎介绍

1. 搜索引擎是什么

　　这里引用百度百科的介绍：搜索引擎（Search Engine）是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。

2. 搜索引擎分类

　　搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

　　我们这里主要介绍一下全文索引，就是百度使用的搜索引擎分类。

全文索引：

　　首先是数据库中数据的搜集，搜索引擎的自动信息搜集功能分两种。一种是定期搜索，即每隔一段时间（比如Google一般是28天），搜索引擎主动派出“蜘蛛”程序，对一定IP地址范围内的互联网网站进行检索，一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索，即网站拥有者主动向搜索引擎提交网址，它在一定时间内（2天到数月不等）定向向你的网站派出“蜘蛛”程序，扫描你的网站并将有关信息存入数据库，以备用户查询。

　　当用户以关键词查找信息时，搜索引擎会在数据库中进行搜寻，如果找到与用户要求内容相符的网站，便采用特殊的算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量——计算出各网页的相关度及排名等级，然后根据关联度高低，按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率比较高。

3.搜索引擎能解决什么问题

　　1> 高效查询数据（运用多种算法查询数据，查询速率是毫秒级别，无论是千万条数据还是上亿的数据）

　　2> 比较容易，将普通的数据库切换成搜索引擎比较容易。

　　3> 大数据量、时效性、高并发等等。

4. 搜索引擎的应用场景：

　　1> 数据库达到百万数据级别的时候 2> 要求检索时效性、性能要求高，Ms级响应

　　我们来看一下在我们平常的互联网中搜索引擎的应用：

Solr

　　今天我们要讲的搜索引擎是Solr，那么什么是Solr呢？它和es相比有什么优点和不足呢？我们先来简单地介绍一下solr：

　　Solr是一个基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的面向使用的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面。它支持Xml/Http协议，支持JSONAPI接口。

　　它具有如下特点：