网络爬虫过程中伪装浏览器的请求头常见字段

在开发者工具 F12 中大家都会在 Headers 中遇到许多内容,今天我们就来详细了解一下这些请求头的常用字段。

常见(一):

Accept: text/htnl, application/xhtml+xml, application/xmlq=0.9,中/*;q=08

Accept字段主要用来表示浏览器能够支持的内容类型有哪些。

text html表示HTMⅡL文档。

application/ xhtml+xm表示 XHTML文档。

application/xml表示XMAL文档。

q代表权重系数,值介于0和1之间。

所以这一行字段信息表示浏览器可以支持 text/html,application/xml、/等内容类型,支持的优先顺序从左到右依次排列。

常见(二):

accept-encoding:gzip, deflate

accept-encoding字段主要用来表示浏览器支持的压缩编码有哪些。

gzip是压缩编码的一种。

deflate是一种无损数据压缩算法。

这一行字段信息表示浏览器可以支持gzp、 deflate等压缩编码。

常见(三):

Accept- Language:zhCN,zh;q=0.8,en-US;q=0.5,cnq=0.3

Accept-language主要用来表示浏览器所支持的语言类型。

zh-CN表示简体中文语言。zh表示中文,CN表示简体

en-Us表示英语(美国)语言

en表示英语语言

所以之一行字段表示浏览器可以支持zh-CN、zh、en-US、cn等语言。

常见(四):

User- Agent: Mozilla5.0( Windows NT61;WOw64;rv:47.0) Gecko20100101Firefox/47.0

user-agent字段主要表示用户代理,服务器可以通过该字段识别出客户端的浏览器类客户端的操作系统及版本号型、浏览器版本号主要以伪造该字段进行网页排版引擎等客户端信息。所以之前要模拟浏览器登录,主要以伪造该字段进行。

Mozilla5.0表示浏览器名和版本号

Windows NT61;WOw64;rv:47.0 表示客户端操作系统对应信息

Gecko表示网页排版引擎对应信息。

Firefox/47.0表示火狐浏览器

所以这一行字段表示信息为对应的用户代理信息是Mozilla5.0( Windows NT61;WOw64;rv:47.0) Gecko20100101Firefox/47.0

常见(五):

Connection:keep-alive

Connection表示客户端与服务器的连接类型,对应的字段值主要有两种

keep-alive表示持久性连接。

close表示单方面关闭连接,让连接断开。

所以此时,这一行字段表示客户端与服务器的连接是持久性连接。

常见(六):

Host: wwwyouku.con

Host字段表示请求的服务器网址是什么,此时这一行字段表示请求的服务器网址是www,youku,con。

常见字段7: Referer:网址

Referer字段主要表示来源网址地址,比如我们从htp:/ www,youku.conm网址中访问了该网址下的子页面http/tvyouku.com?spm=0.0.topnav.5-1-3!2-A.Onqoef,那么此时来源网址为htp:/ www,youku,con,即此时 Referer字段的值为http://www.youku. com

这就是一些常见的请求头参数,其实清楚不清楚都不重要,事实上只要在做爬虫分析时能够把自己需要的找到就可以了,为了伪装浏览器,这样就能悄悄的获取网页数据了。能让大家更好的理解网页的一些知识。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值