【爬虫学习预备】HTTP基础知识——通过浏览器开发者模式学习

一、HTTP协议的发展

Tim Berners-Lee因为 “发明万维网、第一个Web浏览器和使万维网得以扩展的基本协议与算法”获得2016年度图灵奖。
HTTP协议沿用至今的三项基本技术:

  • ”URL(Uniform Resource Locator)
    指定Web文档所在位置的地址
  • HTTP(Hypertext Transfer Protocol)
    允许Web文档传输的基本协议
  • HTML(HyperText Markup Language)
    编写Web文档的一种标记语言

1. 什么是协议?

计算机与网络设备的相互通信需要定义一些通用规则进行交流,而这些规则就成为协议
协议protocol:网络通信的参与方必须遵循相同的规则。

web客户端: 请求访问互联网资源的一端
web服务器端: 提供资源响应的一端
客户端与服务器端之间传输web文档,HTTP协议就是传输Web文档(如HTTP页面)的一种主要协议,浏览器发送请求,网站服务器响应请求的这个过程中,必须严格遵循HTTP协议规定的格式

编写爬虫程序: 实际上就是模仿浏览器,向网站服务器发送一个请求

在这里插入图片描述

二、浏览器向服务器发送了什么信息?

1. 浏览器的开发者模式

浏览器向服务器发送了什么信息?可以通过查看浏览器的开发者模式了解。
打开方式: 快捷键:F12
开发者模式的一些组件:

  • 元素: 用于查看或修改HTML元素的属性、CSS属性、监听事件、断点等。
  • 控制台: 控制台一般用于执行一次性代码,查看JavaScript对象,查看调试日志信息或异常信息。
  • 源代码: 该页面用于查看页面的HTML文件源代码、JavaScript源代码、CSS源代码,此外最重要的是可以调试JavaScript源代码,可以给JS代码添加断点等
  • 网络: 网络页面主要用于查看header等与网络连接相关的信息。若网络中没有任何信息,可以使用F5刷新,重新加载。
    在这里插入图片描述

2. 开发者模式下查看响应与请求信息

1、点击网络,网页文件类型特别多,可以使用筛选器搜索快速定位目标文件:
在这里插入图片描述
2、选择目标文件,即可查看响应与请求信息
在这里插入图片描述

2. HTTP请求报文

HTTP请求报文主要包括:

  • 请求方法:
    • 用来表明对目标资源要执行的操作。
  • 请求URL
  • 请求头
    • user-agent:当前浏览器的身份
    • 许多网站有反爬虫机制:最简单的反爬虫机制检查客户端的user-agent
      在这里插入图片描述
      在这里插入图片描述

2.1 HTTP请求方法

查看HTTP的请求方法:
在这里插入图片描述

HTTP定义了一组请求方法, 用来表明对目标资源要执行的操作

  • 浏览器访问网站一般都使用get请求方法
  • 向指定目标资源提交数据(比如输入密码),需要使用POST请求方法
方法描述
GET请求指定的目标页面信息,期望返回目标页面内容。
POST向指定目标资源提交数据,进行处理请求(例如提交表单或者上传文件) .数据被包含在请求体中。请求可能会导致新资源的建立或者已有资源的修改.

在这里插入图片描述

3. HTTP响应报文

响应报文的组成:

  • 响应行
    • 包含HTTP协议版本、状态码
  • 响应头
  • 响应体
    在这里插入图片描述

3.1 HTTP状态码

状态码告知网站服务器的响应状态,状态码的第一个数字代表五种响应状态之一:

  • 1xx:表示请求已被服务器接收,继续处理
  • 2xx:表示请求已成功被服务器接收、理解、并接受
  • 3xx:表示重定向需要后续操作才能完成这一请求
  • 4xx:表示请求错误请求含有词法错误或者无法被执行
  • 5xx:表示服务器错误服务器在处理某个正确请求时发生错误

在这里插入图片描述
在这里插入图片描述

3.2 HTTP的响应头

在这里插入图片描述

3.3 响应体

包含了服务器返回的所有网页数据

三、更安全的HTTP——HTTPS

HTTPS (Hypertext Transfer Protocol Secure)超文本传输安全协议HTTPS协议是一种通过网络进行安全通信的传输协议,经由HTTP进行通信,利用SSL/TLS加密数据包。HTTPS开发的主要目的是提供对网站服务器的身份
认证,保护交换数据的隐私与完整性。

四、说明

本笔记来源慕课视频:https://www.icourse163.org/learn/NHDX-1463126169?tid=1467058488
小白学习,如有错误,欢迎指正。

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值