爬虫01:抓取网页的含义和URL基本构成

抓取网页的含义和URL基本构成

一、爬虫的定义

爬虫(Spider)是一种自动化程序,通过编程的方式模拟人类浏览网页并从中提取数据。它可以在互联网上按照一定的规则、顺序和路径爬行,并将爬取到的信息进行整理、存储和分析。

通常情况下,爬虫的工作流程如下:

1.设定目标网站:确定需要爬取的目标网站,并确定数据的抓取范围。

2.模拟访问:模拟浏览器的操作,向目标网站发送请求获取网页内容。

3.数据解析:对获取到的网页内容进行解析和提取,提取出所需的有用信息。

4.数据存储:将解析后的数据存放到数据库或文件中,便于后续的数据分析和使用。

爬虫在实际应用中具有很广泛的应用,例如搜索引擎、数据挖掘和资讯聚合等领域。同时也需要遵守相关法律法规和道德准则,以免对网络资源造成不必要的影响。

二、浏览网页的过程

浏览网页的过程通常如下所示:

  1. 用户在浏览器中输入要访问的网站 URL。
  2. 浏览器向 DNS 服务器请求解析该域名对应的 IP 地址。
  3. DNS 服务器返回解析结果,浏览器根据 IP 地址发起 HTTP 请求。
  4. 服务器接收到请求后,根据请求内容返回相应的数据(通常是 HTML 代码)。
  5. 浏览器解析 HTML 代码,并根据其中的 CSS 和 JavaScript 等信息渲染出网页内容。
  6. 如果网页中包含其他资产(例如图片、音频或视频等),浏览器会继续请求这些资产并进行下载和解析。
  7. 浏览器将所有资源整合成一个完整的页面,并显示给用户。
  8. 当用户与网页元素进行交互(例如点击链接或填写表单)时,浏览器会通过 JavaScript 和 DOM 操作来响应用户操作,更新页面内容并可能向服务器发送新的请求。

总之,浏览网页的过程涉及多个步骤,其中浏览器从服务器获取 HTML 代码,解析后呈现给用户浏览,同时会根据用户的操作不断交互和更新页面内容。

三、URI和URL的概念和举例

URI(Uniform Resource Identifier)和 URL(Uniform Resource Locator)是 Web 中常见的两个概念,它们的定义和举例如下:

URI:统一资源标识符,是一个用于唯一地标识一个资源的字符串。包括 URL 和 URN 两个部分

例如:https://www.example.com/index.html,其中 https://www.example.com 是 URL 部分,/index.html 是 URN 部分。

URL:统一资源定位符,表示资源在网络中的位置。URL描述了一个网络上的资源如何被访问,包括通过协议、主机名、端口号、路径等信息。

URL的格式由三部分组成:

①第一部分是协议(或称为服务方式)。

②第二部分是存有该资源的主机IP地址(有时也包括端口号)。

③第三部分是主机资源的具体地址,如目录和文件名等。

第一部分和第二部分用“😕/”符号隔开,

第二部分和第三部分用“/”符号隔开。

第一部分和第二部分是不可缺少的,第三部分有时可以省略。

例如:ftp://ftp.example.com/pub/files/file.txt,其中 ftp://ftp.example.com 是协议和主机名部分,/pub/files/file.txt 是路径部分。

总之,URI 是用于唯一标识资源的字符串,而 URL 则是一种特殊类型的 URI,它指定了在 Web 上访问该资源所需的所有信息。因此,URI 包括 URL 和 URN 两种形式,而 URL 是 URI 的一种实现方式。

四、URL之于爬虫

爬虫最主要的处理对象就是URL,它根据URL地址取得所需要的文件内容,然后对它进行进一步的处理。

因此,准确地理解URL对理解网络爬虫至关重要。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值