html和url

cwtnice

已于 2022-03-10 15:08:43 修改

阅读量806

点赞数 1

分类专栏： web前端文章标签： html

于 2020-04-05 22:14:02 首次发布

本文链接：https://blog.csdn.net/cwtnice/article/details/105334885

版权

5 篇文章 0 订阅

订阅专栏

http协议:

url（统一资源定位符）是Uniform Resource Locator的简写。

一个url由一下基本分组成：

scheme://host:port/path/?query-string=xxx#anchor

在浏览器中请求一个url，浏览器会对这个url进行编码。除了英文字母，数字和部分符号外，其余全部使用百分号+十六进制码值编码。

在http协议中定义了8种请求方法，常用的有get请求和post请求。

注：有的网站和服务器为了反爬虫，可能会不遵循使用原则，例如应该用get请求的时候改成一定要post请求，要根据情况而定

在http协议中，向服务器发送一个请求，数据分为三部分：把数据放在url中，把数据放在body中，把数据放在head中。

网络爬虫中经常用到的请求头参数：

User-Agent：浏览器名称。在爬虫过程中经常会使用到。在请求网页时，服务器通过这个参数获取这个请求是从哪种浏览器发送的。如果是通过爬虫发送请求，User-Agent的值就是Python，对于有反爬虫机制的网站就能判断出这个请求来自爬虫。因此需要经常设置User-Agent的值为一些浏览器的值来伪装我们的爬虫。
Referer：表明当前的这个请求来自于哪个url。这个一般也可以用于反爬虫技术：如果不是从指定界面过来的就不做相关的响应。
Cookie：http协议是无状态的。例如同一个人发送了两个请求，服务器没有办法判断这两个请求是否来自同一个人，因此用Cookie来作为标识。如果爬取需要登录后的网站，就需要发送Cookie信息