前言
学习爬虫的第一天, 需要先去认识了解什么是http 及 https协议, 此文章为学习总结 #URL 与 URI
URL 与 URI
URI: 统一资源标识符
URL: 统一资源定位符
URL是URI的子集 , 可以说每一个URL都是一个URI, 但并不是每一个UIR都可以被称作是URL , 因为URI还有另外一个子集叫做 URN
他们之间的关系这个样子的
超文本
什么是超文本文件?
普通的文本文件中可以包含一些文字信息,数字信息等等, 而超文本文件除了可以包含普通的文字信息外,还可以包含一些图片、音频、视频等信息。我们日常访问的网站就是一个超文本文件。
HTTP 与 HTTPS
HTTP:超文本传输协议
HTTPS: 是以安全为目标的HTTP协议, 在其基础上增加了SSL层
其他请求协议:ftp, sftp, smb…
HTTP的请求过程
我们在浏览器中输入一个 URL,回车之后便可以在浏览器中观察到页面内容。实际上,这个过程是浏览器向网站所在的服务器发送了一个请求,网站服务器接收到这个请求后进行处理和解析,然后返回对应的响应,接着传回给浏览器。响应里包含了页面的源代码等内容,浏览器再对其进行解析,便将网页呈现了出来,传输模型如图所示。
请求
一次请求可以分为四个部分: 请求方法、请求的地址、请求头、请求体。
请求方法
常见的请求方法有两种分别为 GET请求与POST 请求
在浏览器输入URL地址进行访问, 这种方式通常为Get请求。 而进行登录等操作时则通常为Post请求。
当请求方法为Get 时, 请求的参数信息都会体现在URL地址上, 而Post请求不会体现参数信息, 而是以表单的形式进行提交。
可以看出Post相较于Get 更加安全。
请求头
请求头的作用是用来说明服务器需要的一些附加信息, 比较重要的信息有Cookie、user-agent、 referer、content-type等
请求体
请求体一般承载的内容是 POST 请求中的表单数据,而对于 GET 请求,请求体则为空
响应
既然由客户端给服务端发起了请求, 那么服务端就会有对应的响应返回给客户端。
响应可以分为:响应状态码、响应头、响应体
响应状态码
响应头
响应头包含了服务器对请求的应答信息,如 Content-Type、Server、Set-Cookie 等
响应体
最重要的当属响应体的内容了。响应的正文数据都在响应体中,比如请求网页时,它的响应体就是网页的 HTML 代码;请求一张图片时,它的响应体就是图片的二进制数据