想玩爬虫?你需要知道一些简单的知识(一)(http)

一、http基本原理:

URI:统一资源标识符
URL:统一资源定位符
简单来说就是网址,https://www.douban.com/是豆瓣首页的网址,它就是一个URL也是URI。(只是一般情况,其中还有很多细化的知识)

超文本:我们平时看到的网页就是有超文本解析而来,包括图片文字等内容,在浏览器中点击“检查”或者按F12就可以看见HTML源代码,这些代码就是超文本。

协议:简单理解为“规定”,我们访问资源,需要有某些统一的格式、方式等,都由协议规定。网络协议就如同现实世界中的法律。

在URL的开头会有协议,有很多类型,http、https、ftp、sftp、smb等。(可参考书籍:计算机网络)

爬取页面通常要用到的是http和https协议。
HTTP,超文本传输协议,从网络传输超文本数据到本地浏览器的传送协议。
HTTPS,超文本传输安全协议,HTTP的安全版。主要有两个作用:1.建立一个信息安全的通道来保证数据传输的安全;2.确认网站的真实性(点击锁头可查看网站认证之后的真实信息,知识CA机构信任的)。

在浏览器中输入一个URL ,回车,在浏览器中观察到页面内容。这个过程是浏览器向网站所在的服务器发送了一个请求,服务器接收到这个请求后进行处理和解析,然后返回对应的响应,接着传回给浏览器响应里包含了页面的源代码等内容,浏览器再对其进行解析,便将网页呈现了出来。(在浏览器中按F12或者点击右键选择检查就可查看请求和响应的过程)
在这里插入图片描述第一列Name:请求的名称,一般会将RL最后一部分内容当作名称。
第二列Status:响应的状态码,这里显示为 00 代表响应是正常的,通过状态码,我们可以判断发送了请求之后是否得到了正常的响应。
第三列Type:请求的文档类型,这里为document ,代表我们这次请求的是HTML文档,内容就是一些HTML代码。
第四列Initiator:请求源,用来标记请求是由哪个对象或进程发起的。
第五列Size:从服务器下载的文件和请求的资源大小如果是从缓存中取得的资源,则该列会显示台from cache。
第六列Time:发起请求到获取响应所用的总时间。
第七列Waterfall:网络请求的可视化瀑布流。

点开某一个条目可查看具体信息。
General部分:
在这里插入图片描述
Request URL:请求的 URL
Request Method:请求的方法
Status Code:为响应状态码
Remote Address:为远程服务器的地址和端口
Referrer Policy Referrer:判别策略

响应头Response Headers在这里插入图片描述
Date:响应产生的时间。
Last-Modified:指定资源 最后修改。
Content-Encoding:指定 容的编码。
Server:包含服务器的信息 ,比如 、版本号等。
Content-Type:文档类型 ,指定返回的 类型是 ,如 tex t/ htm 代表返回 HTML 文档,application/x-javascript !J! 返回 JavaScript 件, image jpeg 代表返回图片。
Set Cookie:设置 Cookie 应头中的 Set Cook 告诉浏览器需要将此内容放在 Cookies次请求携带Cookies 请求。
Expires:响应的过期时间,可以使代理务器或浏览器将加载的内容更新到缓存中。如果再次访时,就可直接从缓存中加载,降低服务器负载,缩短加载时间。

请求头Request Headers
在这里插入图片描述
Accept:请求报头域,用于客户端可接受哪些类型的信息。
Accept-Language:指定客户端可接受的语言类型。
Accept-Encoding:指定客户端可接受的内容编码。
Host:用于指定请求资源的主机 IP 和端口号,其内容为请求 URL 的原始服务器或网关的位置。
Cookie:也常用复数形式 Cookies ,这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据,它的主要功能是维持当前访问会话,例如登陆以后再次打开还是登陆状态。
Referer :此内容用来标识这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应的处理,如做来源统计、防盗链处理等。
User-Agent:UA ,一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本,浏览器及版本等信息,在做爬虫时加上此信息,可以伪装为浏览器;如果不加,很可能会被识别出为爬虫。
Content-Type:也叫互联网媒体类型( Internet Media Type )或者 MIME 类型,在 HTT 协议消息头中,它用来表示具体请求中的媒体类型信息。
在爬虫中,如果要构造 POST 请求,需要使用正确的 Content-Type。

请求:
可以分为4部分内容:请求方法( Request Method 请求的网址( Request URL )、请求头( Request Headers 请求体( Request Body)。

请求体:一般承载的内容是 POST 请求中的表单数据,而对于 GET 请求,请求体则为空。

方法:GET、POST(大多在表单提交时发起,例如登陆时)。
区别:
1.GET 请求中的参数包含在 URL 里面,数据可以在 URL 中看到(所以通常不用于登陆因为会能看到密码),而 POST 请求的 URL 会包含这些数据,数据都是通过表单形式传输的,会包含在请求体中;
2.GET 请求提交的数据最多只有 1024 字节,而 POST 方式没有限制。
当然还有很多其他的请求方法。

响应:
由服务端返回给客户端,可以分为部分:响应状态码( Response Status Code )、响应头( Response Headers )和响应体( Response Body)。

响应状态码:表示服务器响应状态,如 200 代表服务器正常响应404 代表页面未找到500代表服务器内部发生错误

响应的正文数据都在响应体中,比如请求网页时,它的响应体就是网页的HTML代码;请求一张图片时的响应体就是图片的二进制数据,做爬虫请求网页后,要解析的内容就是响应体(点击Preview可查看)。如下图CSDN的首页:
在这里插入图片描述
注:此系列博文是本人阅读书籍《Python3网络爬虫开发实战的笔记》的笔记,意在复习巩固自己的知识。想要深入了解的建议阅读《计算机网络》,里面讲解的很全。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值