Python爬虫基础

HTTP基本原理

参考资料:


URI和URL

URI:统一资源标识符

URL:统一资源定位符

URN:统一资源名称

现在互联网,URN用得很少,一般网页链接🔗称为URL


超文本

网页源代码HTML称为超文本


HTTP和HTTPS

HTTP:超文本传输协议

HTTPS:HTTP下加入SSL层


HTTP 请求过程

我们利用浏览器”检查“工具的网络来观察这个过程

  • General部分

    • Request URL:请求的URL

    • Request Method:请求方法

    • Status Code: 响应状态码

    • Remote Address:远程服务器的地址和端口

    • Referrer Policy:Referrer判别策略

  • Response Header:响应头

  • Request Header:请求头


请求

请求由客户端发出,分为4部分

  • 请求方法:Request Method

  • 请求网址:Request URL

  • 请求头:Request Headers

  • 请求体:Request Body

请求方法

常见的为:GET和POST

GET 与POST区别

  • GET的参数在URL里面,而POST请求的数据以表单传输,包含在请求体

  • GET的数据只有1024字节,而POST没有限制

其他请求方法

请求的网址

请求的网址即URL

请求头

  • Accept:请求报头域,指定客户端接收哪些类型的信息

  • Accept-Language:指定客户端可接受语言类型

  • Host:指定请求资源的主机IP和端口

  • Cookie:储存在用户本地终端上的数据,特定的 web文档关联在一起, 保存了该客户机访问这个Web 文档时的信息, 当客户机再次访问这个 Web 文档时这些信息可供该文档使用。

  • Referer:标识请求是从那个页面发过来的

  • User-Agent:一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

  • Content-Type:内容类型,一般是指网页中存在的Content-Type,用于定义网络文件的类型和网页的编码,决定文件接收方将以什么形式、什么编码读取这个文件

请求体

请求体承载的是POST的表单数据,对于GET,请求为空


响应

响应状态码

常见的 HTTP 状态码:

  • 200 - 请求成功
  • 301 - 资源(网页等)被永久转移到其它URL
  • 404 - 请求的资源(网页等)不存在
  • 500 - 内部服务器错误

其它可以参考HTTP 状态码 | 菜鸟教程

响应头

响应头包含服务器对请求的应答信息,如Content-Type、Sever、Set-Cookie

响应体

响应体包含响应的正文数据


网页基础

网页组成

网页是由HTML、CSS、JavaScript组成

如果想学爬虫,必须要点Web基础

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值