一、搜索引擎基础介绍
1. 什么是搜索引擎
搜索引擎,通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后,这些结果将按照与搜索关键词的相关度高低(或与相关度毫无关系),依次排列。
2. 传统的搜索与搜索引擎对比
2.1 传统做法
(1)文档中使用系统的Find查找
(2)mysql中使用like模糊查询
存在问题:
(1)海量数据中不能及时响应,少量数据可以通过传统的MySql建立索引解决
(2)一些无用词不能进行过滤,没法分词
(3)数据量大的话难以拓展
(4)相同的数据难以进行相似度最高的进行排序
2.2 搜索引擎做法
(1)存储非结构化的数据
(2)快速检索和响应我们需要的信息,快-准
(3)进行相关性的排序,过滤等
(4)可以去掉停用词(没有特殊含义的词,比如英文的a,is等,中文: 这,的,是等),框架一般支持可以自定义停用词