搜索引擎与网络爬虫简述

一、搜索引擎

         搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,将处理后的信息展示给用户。

垂直搜索引擎则是针对某一行业的专业所搜引擎,是普通搜索引擎的细化和延伸。主要通过对网页库的某类信息进行整合,定向分字段抽取出需要的数据进行处理、返回给用户。

 二、搜索引擎的流程

1、搜索引擎将网页大量抓取下来,通过分析器解析,将有价值的数据入库,检索器(索引器)对有效的内数据建立检索

2、客户搜索界面——>提交查询——>检索器返回结果呈现给用户

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
搜索引擎网络爬虫的研究 论文 武汉理工大学硕士学位论文 第1章引言 1.1选题背景 人类社会的发展离不开知识的获取与发现,进入互联网时代以后,信息出现 了飞速地增长,对于网络上不断涌现的各种信息,人们的接受能力却是十分有 限的,这时人们就急切的需要一种技术手段,能够使信息的获取更加方便、准 确川。在这种需求的带动下,搜索引擎出现了,经过了几十年的发展,搜索引擎 现在己经成为了我们日常上网必备的工具之一,使用搜索引擎我们可以比较方 便地查找到所需要的信息,搜索也渐渐成为了人们开启互联网世界大门的一把 钥匙。 从技术的本质来讲,搜索引擎其实是信息检索技术在互联网时代的一种应用 表现形式。信息检索技术起源于对文献的参考查询和摘录索引工作,早在十九 世纪下半叶就已经开始对其进行相关的研究。信息检索包括对信息的存储、组 织、表现、查询、存取等几个方面[2]。其中对信息的索引和检索是关键,通过对 信息合理的组织可以使用户能够更加方便的对其进行访问;如何将用户的要求 准确合理的表达出来也是一个问题,往往需要使用系统规定的查询语言将用户 的要求通过规范化的形式表达出来;根据用户提出的查找要求,系统接下来所 做的工作就是准确、快速的返回符合要求的内容。信息检索技术发展到今天已 经积累了许多成熟的理论,这些理论为搜索引擎的发展提供了强大的理论支撑。 1.2关于搜索引擎爬虫 搜索引擎的工作过程,主要包括三个步骤[3]:从网上获取页面、建立索引、 从索引中查找结果并排序。 (1)从网上获取页面:搜索引擎网络爬虫程序每隔一段时间就会对网上的页 面进行遍历,从一些页面开始,通过页面上的链接爬行到其它的页面,反复地 进行这个过程,在爬行的过程中会对相应的页面进行存储,为下一步的工作提 供原始的页面数据[410 <2)建立索引:搜索引擎的索引模块会对爬虫获取的页面进行分析,根据页面

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值