搜索引擎初识

什么是搜索引擎

一套可对大量结构化、半结构化数据、非结构化文本类数据进行实时搜索的专门软件。最早应用于信息检索领域,经谷歌、百度等公司推出网页搜索而为大众广知,后又被各大电商网站采用来做网站的商品搜索。现广泛应用于各行业、互联网应用,是大型系统、网站架构师必备技能。


解决的问题:专门解决大量结构化、半结构化数据、非结构化文本类数据的实时检索问题。这种实时搜索数据库做不了。

适用场景

  • 信息检索(如电子图书馆、电子档案馆)
  • 网页搜索
  • 内容提供网站的内容搜索(如 新闻、论坛、博客网站)
  • 电子商务网站的商品搜索
  • 如果你负责的系统数据量大,通过数据库检索慢,可以考虑用搜索引擎来专门负责检索

核心部件构成

  • 数据源
  • 分词器
  • 反向索引(倒排索引)
  • 相关性计算模型

数据类型

  • 结构化数据:用表、字段表示的数据,一般存储于数据库中
  • 半结构化数据:xml、html的文件数据
  • 非结构化数据:文本、文档、图片、音频、视频等
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值