什么是搜索引擎
一套可对大量结构化、半结构化数据、非结构化文本类数据进行实时搜索的专门软件。最早应用于信息检索领域,经谷歌、百度等公司推出网页搜索而为大众广知,后又被各大电商网站采用来做网站的商品搜索。现广泛应用于各行业、互联网应用,是大型系统、网站架构师必备技能。
解决的问题:专门解决大量结构化、半结构化数据、非结构化文本类数据的实时检索问题。这种实时搜索数据库做不了。
适用场景
- 信息检索(如电子图书馆、电子档案馆)
- 网页搜索
- 内容提供网站的内容搜索(如 新闻、论坛、博客网站)
- 电子商务网站的商品搜索
- 如果你负责的系统数据量大,通过数据库检索慢,可以考虑用搜索引擎来专门负责检索
核心部件构成
- 数据源
- 分词器
- 反向索引(倒排索引)
- 相关性计算模型
数据类型
- 结构化数据:用表、字段表示的数据,一般存储于数据库中
- 半结构化数据:xml、html的文件数据
- 非结构化数据:文本、文档、图片、音频、视频等