python爬虫---关于http、url

最新推荐文章于 2024-08-24 18:20:16 发布

原创最新推荐文章于 2024-08-24 18:20:16 发布 · 1.7k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #http

爬虫专栏收录该内容

2 篇文章

订阅专栏

本文深入解析HTTP协议及其加密版本HTTPS，阐述URL结构与编码规则，对比GET与POST请求方法，介绍常见请求头参数如User-Agent、Referer和Cookie，是理解网络通信与爬虫基础的必备知识。

python爬虫—关于http、url

·http协议：全称是HyperText Transfer Protocol 中文意思超文本传输协议，是一种发布和接受HTML页面地方法。服务器端口号是80端口。HTTPS协议：是HTTP协议地加密版本，在HTTP下加入了SSL层，服务器端口号是443端口。

https://baike.baidu.com/item/HTTP

·URL是Uniform Recourse Locator的简写，统一资源定位符。一个URL由以下几部分组成：
Scheme://host:port/path/?query-string=xxx#anchor
1.scheme:代表的是访问的协议，一般为http或者https以及ftp等。
2.host:主机名，域名，比如www.baidu.com。
3.Port:端口号。当你访问一个网站的时候，浏览器默认使用的是80端口。
4.Path:查找路径。比如：www.jianshu.com/trending/now, 后面的trending/now就是path。
5.query-string：查询字符串，比如www.baidu.com/s?wd=python,后面的wd=python即为查询字符串。
6.Anchor：锚点，前端用来做页面定位。现在一些前后端分离的项目，也用锚点来做导航。
·在浏览器中请求一个url，浏览器会对这个url进行一个编码。除英文字母，数字和部分符号外，其他的全部使用百分号+十六进制码值进行编码。

·常见的请求method
常用的两种请求方法分别是get请求和post请求
1.get请求：一般情况下，只从服务器获取数据下来，并不会对服务器资源产生任何影响的时候会用get请求。
在这里插入图片描述

2.post请求：向服务器发送数据（登录）、上传文件等，会对服务器资源产生影响的时候会用post请求。
（以上是在网站开发中常用的两种方法。并且一般情况下都会遵循使用的原则。但是有的网站和服务器做了反爬虫机制，也经常会不按常理出牌，有可能一个应该用get方法请求的就一定要改成post请求，这个要视情况而定。）
3.除此之外，请求方法还包括head，put，delete，connect，options，trace（回显服务器收到的请求，主要用于测试或诊断）

·常见的请求头参数
在http协议中，向服务器发送一个请求，数据分为三部分，第一个吧数据放在url中，第二个把数据放在body中（在post中请求中），第三个就是把数据放在head中。这里介绍在网络爬虫中经常会用到的一些请求头参数：
1.User-Agent:浏览器名称。这个在网络爬虫中经常会被用到。请求一个网页的时候，服务器通过这个参数就可以知道这个请求是由哪种浏览器发送的。如果我们是通过爬虫发送请求，那么我们的user-agent就是python，这对于那些有反爬虫机制的网站来说，可以轻易判断你这个请求爬虫。因此我们要经常设置这个值为一些浏览器的值，来伪装我们的爬虫。
2.Referer：表明当前这个请求是从哪个url过来的。这个一般也可以用来做反爬虫技术。如果不是从指定页面过来的，那么就不做相关的相应。
3.Cookie：http是无状态的。也就是同一个人发送了两次请求，服务器没有能力知道这两个请求是否来自同一个人。因此这时候就需要用cookie来做标识。一般如果想要登陆后才能访问的网站，那么就需要发送cookie信息了。

Chrome抓包工具
在这里插入图片描述