爬虫０１：抓取网页的含义和URL基本构成

最新推荐文章于 2024-06-02 18:54:26 发布

Jerry _Chen

最新推荐文章于 2024-06-02 18:54:26 发布

阅读量341

点赞数

文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/jerry_chen0126/article/details/131192003

版权

抓取网页的含义和URL基本构成

爬虫（Spider）是一种自动化程序，通过编程的方式模拟人类浏览网页并从中提取数据。它可以在互联网上按照一定的规则、顺序和路径爬行，并将爬取到的信息进行整理、存储和分析。

通常情况下，爬虫的工作流程如下：

1.设定目标网站：确定需要爬取的目标网站，并确定数据的抓取范围。

2.模拟访问：模拟浏览器的操作，向目标网站发送请求获取网页内容。

3.数据解析：对获取到的网页内容进行解析和提取，提取出所需的有用信息。

4.数据存储：将解析后的数据存放到数据库或文件中，便于后续的数据分析和使用。

爬虫在实际应用中具有很广泛的应用，例如搜索引擎、数据挖掘和资讯聚合等领域。同时也需要遵守相关法律法规和道德准则，以免对网络资源造成不必要的影响。

浏览网页的过程通常如下所示：

用户在浏览器中输入要访问的网站 URL。
浏览器向 DNS 服务器请求解析该域名对应的 IP 地址。
DNS 服务器返回解析结果，浏览器根据 IP 地址发起 HTTP 请求。
服务器接收到请求后，根据请求内容返回相应的数据（通常是 HTML 代码）。
浏览器解析 HTML 代码，并根据其中的 CSS 和 JavaScript 等信息渲染出网页内容。
如果网页中包含其他资产（例如图片、音频或视频等），浏览器会继续请求这些资产并进行下载和解析。
浏览器将所有资源整合成一个完整的页面，并显示给用户。
当用户与网页元素进行交互（例如点击链接或填写表单）时，浏览器会通过 JavaScript 和 DOM 操作来响应用户操作，更新页面内容并可能向服务器发送新的请求。

总之，浏览网页的过程涉及多个步骤，其中浏览器从服务器获取 HTML 代码，解析后呈现给用户浏览，同时会根据用户的操作不断交互和更新页面内容。

URI（Uniform Resource Identifier）和 URL（Uniform Resource Locator）是 Web 中常见的两个概念，它们的定义和举例如下：

URI：统一资源标识符，是一个用于唯一地标识一个资源的字符串。包括 URL 和 URN 两个部分。

例如：https://www.example.com/index.html，其中 https://www.example.com 是 URL 部分，/index.html 是 URN 部分。

URL：统一资源定位符，表示资源在网络中的位置。URL描述了一个网络上的资源如何被访问，包括通过协议、主机名、端口号、路径等信息。

URL的格式由三部分组成：

①第一部分是协议(或称为服务方式)。

②第二部分是存有该资源的主机IP地址(有时也包括端口号)。

③第三部分是主机资源的具体地址，如目录和文件名等。

第一部分和第二部分用“😕/”符号隔开，

第二部分和第三部分用“/”符号隔开。

第一部分和第二部分是不可缺少的，第三部分有时可以省略。

例如：ftp://ftp.example.com/pub/files/file.txt，其中 ftp://ftp.example.com 是协议和主机名部分，/pub/files/file.txt 是路径部分。

总之，URI 是用于唯一标识资源的字符串，而 URL 则是一种特殊类型的 URI，它指定了在 Web 上访问该资源所需的所有信息。因此，URI 包括 URL 和 URN 两种形式，而 URL 是 URI 的一种实现方式。

爬虫最主要的处理对象就是URL，它根据URL地址取得所需要的文件内容，然后对它进行进一步的处理。

因此，准确地理解URL对理解网络爬虫至关重要。

关注