网络信息检索(三)Web信息搜集

一个完整的IR系统:
在这里插入图片描述
与传统IR模型的差别就在于爬虫+Web的部分,只有通过在Web上不断搜集信息,才能不断的完善我们网络信息检索的能力。

一、Web简介

  • Web信息搜集(Web Crawling):指通过Web页面之间的链接关系从Web上自动获取页面信息,并且随着链接不断向所需要的Web页面扩展的过程,信息搜集系统也常常称为Robot, Spider, Crawler等
  • 信息搜集是网络信息检索系统获得数据来源的过程,地位相当重要
  • 信息搜集的目标:快速获得高质量的网页——快+高质量

1、Web三要素

  • 资源(Resources): 超文本的概念表示,如 HTML(HyperText Markup Language
  • 资源标识(Resource identifiers): 用来定位资源的唯一性命名机制,如 URL
  • 传输协议(Transfer protocols): 浏览器(Web用户代理)和服务器之间通信的规范,如HTTP
    下面的内容为WEB基础,涉及一些计算机网络知识,有基础的其实可以跳。

(1)HTML的基本结构

 一个HTML文档可以分为文档( head)和文档(body),前者在<HEAD></HEAD>之间,后者在<BODY></BODY>之间
 文档的题目title )显示在头部
 文档的内容content )显示在文档体内,文档体可以分为段落,用 <P>分割
 超链接(Hyperlink) <a href="relations/alumni">alumni</a>。链接是一个Web资源到另一个资源的(有方向的)链接,中间的文字成为锚文本( anchor)。锚文本对信息检索是非常重要的,因为它是对网页的一个高度抽象,可以作为我们对该网页的索引词。

(2)资源标识符

 URL(Uniform Resource Locators)语法: <protocol>://<hostname><path>?<query>#<fragment>代表后面是一个查询,可以获得一些变量值。#可以对网页进行重定位。
查询(query)从HTML表格中传递变量 <variable>=<value>&<variable>=<value>…
片段( fragment)也称为指向( reference )同一个文
档内的指针 <<A NAME=“<fragment>”>
 绝对URL,指明完整的资源定位路径
 相对URL,只是相对的资源定位信息

(3)传输协议HTTP/HTTPS

在这里插入图片描述
HTTP是Hypertext Transfer Protocol,超文本传输协议的缩写,主要使用了TCP技术(TCP三次握手建立连接),他有如下的一些方法。

(i)常用方法

在这里插入图片描述

(ii)HTTP响应状态码
 - 1XX: Informational 
100 Continue, 101 Switching Protocols
 -  2XX: Success 
200 OK, 206 Partial Content
 -  3XX: Redirection 
301 Moved Permanently, 304 Not Modified
 - 4XX
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值