1.HTTP基本原理

本文介绍了HTTP的基本原理,包括URI、URL的区别,超文本Hypertext概念,HTTP与HTTPS的用途,以及HTTP请求的过程,重点讲解了请求方法、请求头、响应状态码和响应体在HTTP交互中的作用。此外,还探讨了HTTP请求与响应的详细结构,以及在爬虫中如何理解和利用这些知识。
摘要由CSDN通过智能技术生成

1.必知必会,掌握HTTP基本原理

// 记录崔庆才老师的《52讲轻松搞定网络爬虫》学习笔记。

URI 和 URL

URI的全称为 Uniform Resource Identifier,即统一资源标志符

URL的全称为 Universal Resource Locator,即统一资源定位符

URL 是 URI 的子集,URI 还包括一个子类叫作URN,它的全称为 Universal Resource Name,即统一资源名称。URN 只命名资源而不指定如何定位资源(URN不常使用)

在这里插入图片描述

超文本 Hypertext

超文本,其英文名称叫作 Hypertext,我们在浏览器里看到的网页就是超文本解析而成的,其网页源代码是一系列 HTML 代码,里面包含了一系列标签,比如 img 显示图片,p 指定显示段落等。浏览器解析这些标签后,便形成了我们平常看到的网页,而网页的源代码 HTML 就可以称作超文本。

HTTP 和 HTTPS

URL 的开头会有 http 或 https,这个就是访问资源需要的协议类型,有时我们还会看到 ftp、sftp、smb 开头的 URL,那么这里的 ftp、sftp、smb 都是指的协议类型。在爬虫中,我们抓取的页面通常就是 http 或 https 协议的,我们在这里首先来了解一下这两个协议的含义。

HTTP的全称是 Hyper Text Transfer Protocol,中文名叫作超文本传输协议,HTTP 协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档。HTTP 由万维网协会(World Wide Web Consortium)和 Internet 工作小组 IETF(Internet Engineering Task Force)共同合作制定的规范,目前广泛使用的是 HTTP 1.1 版本。

HTTPS的全称是 Hyper Text Transfer Protocol over Secure Socket Layer,是以安全为目标的 HTTP 通道,简单讲是 HTTP 的安全版,即HTTP 下加入 SSL 层,简称为 HTTPS。

HTTPS 的安全基础是 SSL,因此通过它传输的内容都是经过 SSL 加密的,它的主要作用可以分为两种:

  • 建立一个信息安全通道,来保证数据传输的安全。
  • 确认网站的真实性,凡是使用了 HTTPS 的网站,都可以通过点击浏览器地址栏的锁头标志来查看网站认证之后的真实信息,也可以通过 CA 机构颁发的安全签章来查询。</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值