搜索引擎的技术架构

搜索引擎主要分为全文、目录和元搜索三类。全文搜索引擎如Google、百度通过爬虫定期抓取网页信息,建立数据库,用户查询时根据关键词相关度返回结果。目录索引如Yahoo依赖人工分类,元搜索引擎整合多个引擎结果。搜索引擎面临挑战包括海量数据获取、存储、处理及快速准确响应查询,其架构包括网页抓取、索引建立、查询分析和结果排序等关键环节。
摘要由CSDN通过智能技术生成
  1. 搜索引擎的分类
    搜索引擎按其工作方式主要可分为三种:

    全文搜索引擎(Full Text Search Engine)
    目录索引类搜索引擎(Search Index/Directory)
    元搜索引擎(Meta Search Engine)。

  2. 全文搜索引擎

    全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。

    在搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天), 蜘蛛搜索引擎搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
      
    当用户以关键词查找信息时,搜索引擎会在数据库

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值