Python爬虫基础之HTTP基本原理

最新推荐文章于 2024-09-25 09:59:34 发布

冠一python

最新推荐文章于 2024-09-25 09:59:34 发布

阅读量472

点赞数

分类专栏： python 爬虫人工智能文章标签： python http 爬虫

本文链接：https://blog.csdn.net/nuow9880/article/details/121909559

版权

python 同时被 3 个专栏收录

93 篇文章 1 订阅

订阅专栏

爬虫

91 篇文章 0 订阅

订阅专栏

人工智能

91 篇文章 0 订阅

订阅专栏

本文介绍了HTTP的基本原理，包括URI和URL的概念及其区别，强调URL是URI的子集。超文本（HTML）是构成网页的基础，通过浏览器解析HTML代码形成可视化的网页。了解这些基础知识对于理解爬虫的工作原理至关重要。

摘要由CSDN通过智能技术生成

HTTP基本原理

在写爬虫之前，我们还需要了解一些基础知识，如HTTP原理、网页的基础知识、爬虫的基本原理、Cookies的基本原理等。我们还会详细了解HTTP的基本原理，了解在浏览器中敲入URL到获取网页内容之间发生了什么。了解了这些内容，有助于我们进一步了解爬虫的基本原理。

URI和URL

这里我们先了解一下URI和URL，URI的全称为Uniform Resource Identifier,即统一标志符，URL的全称为Universal Resource Locator，即统一资源定位符。举例来说，我们可以找到GitHub的网站图标链接：

它是一个URL，也是一个URI。即有这样一个图标资源，我们用URL/URI来指定了它的访问方式，这其中包括了访问协议https、访问路径(/即根目录)和资源名称favicon.ico。通过这样一个链接，我们便可以从互联网上找到这个资源，这就是URL/URI。

URL是URI的子集，也就是说每个URL都是URI，但不是每个URI都是URL。那么，怎样的URI不是URL呢？URI还包括一个子类叫做URN，它的全称为Universal Resource Name，即统一资源名称。URN只命名资源而不指定如何定位资源，比如urn:isbn:0451450523指定了一本书的ISBN，可以唯一标识这本书，但是没有指定到哪里定位这本书，这就是URN。URL、URN以及URI的关系可以表示为URI内部有两个部分，一部分为URL；一部分为URN。但是在目前的互联网中，URN用的非常少，所以几乎所有的URI都是URL，一般的网页链接我们既可以称为URL，也可以称为URI。我喜欢称呼它为URL。

超文本

接下来，我们再了解一个概念——超文本，其英文名称叫做hypertext，我们在浏览器里看到的网页就是超文本解析而成的，其网页源码是一系列HTML代码，里面包含了一系列标签，比如img显示图片，p指定显示段落等。浏览器解析这些标签之后，便形成了我们平常看到的网页，而网页的源代码HTML就可以称作超文本。

例如，我们在Chrome浏览器里面打开任意一个页面，如淘宝首页，右击任意地方并选择检查项，即可打开浏览器开发者工具，这时在Elements选项卡即可看到当前网页的源代码，这些源代码都是超文本：