Python爬虫基础

Mr.Harsh

已于 2023-02-08 01:03:36 修改

阅读量269

点赞数 1

分类专栏：爬虫文章标签：爬虫 python

于 2022-08-09 17:56:21 首次发布

本文链接：https://blog.csdn.net/qq_36831734/article/details/126252815

版权

5 篇文章 0 订阅

订阅专栏

HTTP基本原理

参考资料：

HTTP 教程 | 菜鸟教程 (runoob.com)
个人博客链接

URI:统一资源标识符

URL:统一资源定位符

URN:统一资源名称

现在互联网，URN用得很少，一般网页链接🔗称为URL

网页源代码HTML称为超文本

HTTP:超文本传输协议

HTTPS:HTTP下加入SSL层

我们利用浏览器”检查“工具的网络来观察这个过程

请求由客户端发出，分为4部分

请求方法:Request Method

请求网址:Request URL

请求头:Request Headers

请求体:Request Body

常见的为：GET和POST

GET 与POST区别

GET的参数在URL里面，而POST请求的数据以表单传输，包含在请求体

GET的数据只有1024字节，而POST没有限制

其他请求方法

请求的网址即URL

Accept:请求报头域，指定客户端接收哪些类型的信息
Accept-Language:指定客户端可接受语言类型
Host:指定请求资源的主机IP和端口
Cookie:储存在用户本地终端上的数据,特定的 web文档关联在一起, 保存了该客户机访问这个Web 文档时的信息, 当客户机再次访问这个 Web 文档时这些信息可供该文档使用。
Referer:标识请求是从那个页面发过来的
User-Agent:一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
Content-Type:内容类型，一般是指网页中存在的Content-Type，用于定义网络文件的类型和网页的编码，决定文件接收方将以什么形式、什么编码读取这个文件