请求头

请求头描述客户端向服务器发送请求时使用的协议类型、所使用的编码以及发送内容的长度等。客户端(浏览器)通过输入URL后确定等于做了一次向服务器的请求动作,在这个请求里面带有请求参数,请求头在网络爬虫中的作用是相当重要的一部分。
请求头的参数如。
(1) Accept: text/html,image/(浏览器可以接收的类型)。
(2) Accpt-Charset: ISO-8859-1 (浏览器可以接收的编码类型)。
(3) Acept Encoding: gzip.compress (浏览器可以接收压缩编码类型)。
(4) Acep anguage: enus,zh.cn (浏览器可以接收的语言和国家类型)
(5) Host: 请求的主机地址和端口

(6) IfMoifcd-Since Tue, 11 Jul 2000 18:23:51 GMT (某个页面的缓存时间)。
(7) Referer: 请求来自于哪个页面的URL。
(8) User-Agnt: Mizla/4.0 (ompatible, MSIE 5.5, Windows NT5.0,浏览器|关信息)
(9) Cookie:浏览器暂存服务器发送的信息。
( 10) Connection: close(L1.)YKep-Alie(1.1) (HTTP请求版本的特点)。
(11) Date: Tue, 11 Jul 2000 18:23:51 GMT (请求网站的时间)。
一个标准的请求基本上都带有以上属性。在网络爬虫中,请求头一定要有User-Agent, 其他的属性可以根据实际进行添加,因为反爬虫通常检测请求头的Referer和User-Agent, 而Cookie不能添加到请求头。除此之外,还有一些比较特殊的请求头信息,如Uprade-Insecure-Requests (告诉服务器,浏览器可以处理HTTPS协议)、X-Requested-With (判断是否Ajax请求)等。
以下是Python里面一个完整的请求头, 以字典格式生成,代码如下:
Headers = {
‘Accept’:‘text/html,application/xhtml+xml,
appllcation/xml;q=0.9 ,/;q-0.8’,
‘Accept-Language’: ‘zh-CN, zh;q-0.8’,
‘Cache -Control’: ’ max-age-0’,
‘User-Agent’: ’ Mozilla/5.0 (Windows NT 6.3;
WOW64;rv:41.0)Gecko/20100101
Firefox/41.0’,
‘Connection’ : ‘keep-alive’,
‘Referer’ : ‘https://movie.douban.com/’}

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值