搜索引擎学习笔记-引论

搜索引擎概念
从使用者角度看,SE提供一个可能与输入内容相关的信息列表。这个列表中的每一条目代表一个网页,至少有3个元素:
标题:以某种方式得到的网页内容的标题。最简单的方式就是从网页的<TITLE></TITLE>标签中提取的内容。(尽管在一些情况下并不能真正反应网页的内容)。当然还有其他形成标题的方法;
URL:该网页对应的“访问地址”。有经验的Web用户常常可以通过这个元素对网页的权威性进行判断;
摘要:以某种方式得到的网页内容的摘要。最简单的一种方式就是将网页内容的头若干个字节截取下来作为摘要。当然也有其他办法形成摘要。
不同背景的用户,需要不同的信息,但可能输入相同的查询词,SE并不了解用户背景,它只是尽可能把用户最可能被关心的信息放在列表前面。这也是对SE的根本要求。搜索引擎的应用环境是Web,因此对大量并发用户查询的响应性能也是一个不能忽略的方面。
SE基本原理的了解,澄清两个问题:第一,当用户提交查询的时候,SE并不是即刻在Web上“搜索”一通,发现那些相关网页,形成列表呈现给用户;而是实现已“搜集”了一批网页,以某种方式存放在系统中,此时的搜索只是在系统内部进行而已;第二,当用户感到返回结果列表中某一项很可能是他所需要的,从而点击URL,获得网页全文的时候,他此时访问的则是网页的原始出处。于是,从理论上讲SE并不能保证用户在返回结果列表上看到的标题和摘要内容与他点击URL所看的一致,甚至不保证那个网页还存在。
SE的历史
起源于FTP,但以Web网页为对象的SE和易FTP文件为对象的检索系统一个基本的区别是在于搜集信息的过程。前者是利用HTML文档之间的链接关系,在Web上一个网页、一个网页的“爬取”(crawl),将那些网页“抓”(fetch)到本地后进行分析;后者则是根据已有的关于FTP站点地址的知识(例如得到一个站点地址列表),对那些站点进行访问,获取其文件目录信息,并不是真正的将那些文件下载到系统上来。
因此如何在Web上“爬取”,就是搜索引擎要解决的一个基本问题。1993,World Wide Web Wanderer,第一个机器人(robot)程序:利用HTML教程网页之间的链接关系监测Web。又叫“蜘蛛”(spider)。因此在文献中,crawler、spider、robot一般指的是相同的事物,即在Web上依照网页之间的超链接关系一个个抓取网页的程序,通常也称“搜集”。在搜素引擎系统中,也成为网页搜集子系统。
现在SE思路起源于Wanderer,例如,LYcos。不少人在改进之主程序,连入到其索引程序中。Google是98年推出。独特的PageRank技术。
同一时期发展出来的事物:基于目录的信息服务网站(Yahoo)。这是人工分类,信息增加,单靠人工不太现实。两个发展方向:利用文本自动分类技术另一个是将自动网页爬取和一定的人工分类目录相结合。
个性化搜索引擎出现,专业化数据库搜索。
著名搜索引擎:Google、百度、AllTheWeb、Ask Jeeves、HotBot、Teoma、Lycos、WiseNut、Overture、Vivisimo、天网搜索等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值