点击上方“Python爬虫与数据挖掘”,进行关注
回复“书籍”即可获赠Python从入门到进阶共10本电子书
今
日
鸡
汤
天生我才必有用,千金散尽还复来。
/1 前言/
大家在学习网络爬虫的过程中,肯定都会用到F12这个快捷键,或者在网页上点击右键—>检查,进入到网页元素审查模式中去,其中请求头是我们重点关注的内容,如下图所示:
请求头通常在爬虫过程中,是为了伪装浏览器,这样就可以悄悄的获取网页数据了。但是我们经常遇到的请求头中,基本上是英文,关于英文的意思,有时候我们看的并不是很明白。
今天小编就请求头中的常用字段,整理一篇小文章,供大家一起学习下。希望后面大家在构造请求头的时候,不用像以前那么蒙就可以了。
/2 常见字段(一)/
常见字段(一),如下所示:
Accept: text/htnl, application/xhtml+xml, application/xmlq=0.9,中/*;q=08
Accept字段主要用来表示浏览器能够支持的内容类型有哪些。
text html表示HTMⅡL文档。
application/ xhtml+xm表示 XHTML文档。
application/xml表示XMAL文档。
q代表权重系数,值介于0和1之间。
所以这一行字段信息表示浏览器可以支持 text/html,application/xml、/等内容类型,支持的优先顺序从左到右依次排列。
/3 常见字段(二)/
常见字段(二),如下所示:
accept-encoding:gzip, deflate
accept-encoding字段主要用来表示浏览器支持的压缩编码有哪些。
gzip是压缩编码的一种。
deflate是一种无损数据压缩算法。
这一行字段信息表示浏览器可以支持gzp、 deflate等压缩编码。
/4 常见字段(三)/
常见字段(三),如下所示:
Accept- Language:zhCN,zh;q=0.8,en-US;q=0.5,cnq=0.3
Accept-language主要用来表示浏览器所支持的语言类型。
zh-CN表示简体中文语言。zh表示中文,CN表示简体
en-Us表示英语(美国)语言
en表示英语语言
所以之一行字段表示浏览器可以支持zh-CN、zh、en-US、cn等语言。
/5 常见字段(四)/
常见字段(四),如下所示:
User- Agent: Mozilla5.0( Windows NT61;WOw64;rv:47.0) Gecko20100101Firefox/47.0
user-agent字段主要表示用户代理,服务器可以通过该字段识别出客户端的浏览器类客户端的操作系统及版本号型、浏览器版本号主要以伪造该字段进行网页排版引擎等客户端信息。所以之前要模拟浏览器登录,主要以伪造该字段进行。
Mozilla5.0表示浏览器名和版本号
Windows NT61;WOw64;rv:47.0 表示客户端操作系统对应信息
Gecko表示网页排版引擎对应信息。
Firefox/47.0表示火狐浏览器
所以这一行字段表示信息为对应的用户代理信息是Mozilla5.0( Windows NT61;WOw64;rv:47.0) Gecko20100101Firefox/47.0
/6 常见字段(五)/
常见字段(五),如下所示:
Connection:keep-alive
Connection表示客户端与服务器的连接类型,对应的字段值主要有两种
keep-alive表示持久性连接。
close表示单方面关闭连接,让连接断开。
所以此时,这一行字段表示客户端与服务器的连接是持久性连接。
/7 常见字段(六)/
常见字段(六),如下所示:
Host: wwwyouku.con
Host字段表示请求的服务器网址是什么,此时这一行字段表示请求的服务器网址是www,youku,con。
常见字段7: Referer:网址
Referer字段主要表示来源网址地址,比如我们从htp:/ www,youku.conm网址中访问了该网址下的子页面http/tvyouku.com?spm=0.0.topnav.5-1-3!2-A.Onqoef,那么此时来源网址为htp:/ www,youku,con,即此时 Referer字段的值为http://www.youku. com
/8 小结/
1、本文基于爬虫过程中浏览器的请求头,主要介绍了请求头中的常见的6个字段。
2、请求头通常在爬虫过程中,是为了伪装浏览器,这样就可以悄悄的获取网页数据了。希望这篇基础文章,能够帮助到大家更好的理解网页知识,感谢大家的支持!
------------------- End -------------------
往期精彩文章推荐:
欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持
想加入Python学习群请在后台回复【入群】
万水千山总是情,点个【在看】行不行
/今日留言主题/
随便说一两句吧~~