http请求头数据介绍

Host: www.baidu.com
User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: zh-CN,en-US;q=0.7,en;q=0.3
Accept-Encoding: gzip, deflate, br
Referer: https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E5%BE%AE%E4%BF%A1%E7%BD%91%E9%A1%B5%E7%89%88&oq=idea&rsv_pq=df1d1d7900012726&rsv_t=e3eaqlL847Bxznq5p1%2BoCBx66We9aHN84KI5DPEfTfftmUIj1hWeStKJSKw&rqlang=cn&rsv_enter=0&inputT=4107&rsv_sug3=20&rsv_sug1=16&rsv_sug7=100&rsv_sug2=1&prefixsug=weixin&rsp=0&rsv_sug4=5137
Cookie: BAIDUID=CAEBA062EEDB0440ECE4BD322C75DD36:FG=1; BIDUPSID=CAEBA062EEDB0440ECE4BD322C75DD36; PSTM=1471327066; BD_UPN=133352; sug=3; sugstore=0; ORIGIN=2; bdime=0; pgv_pvi=6147141632; BD_CK_SAM=1; rsv_jmp_slow=1490604136390; BD_HOME=0; H_PS_PSSID=1464_21124_17001_21670_20930; PSINO=2; pgv_si=s4650173440; H_PS_645EC=7f23pbq7Of2TPUiudn7ywwrUThW7g2q13G6W1ZvYlZwjS9PBLiSuRMvUmDw; WWW_ST=1490614416114
Connection: keep-alive
Upgrade-Insecure-Requests: 1

Cache-Control: max-age=0 之前一直在搞爬虫,但是对内部的实现机制一直没有认真研究今天抽空看了下爬虫的细节首先是网页请求的内容,前人之述备矣但写了才是算我的了解。这个请求是在火狐浏览器里面截取的。可以看到请求包括host:请求的网址。user-agnet:是用户代声明了浏览器用于 HTTP 请求的用户代理头的值Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0 是火狐的设置Mozilla/5.0
 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/53.0.2785.143 Chrome/53.0.2785.143 Safari/537.36是chrome的设置. accept:浏览器支持的 MIME 类型(MIME的英文全称是 Multipurpose Internet Mail Extensions多功能 Internet 邮件扩充服务) text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8q
 是权重系数,范围 0 =< q <= 1,q 值越大,请求越倾向于获得其“;”之前的类型表示的内容,若没有指定 q 值,则默认为1,若被赋值为0,则用于提醒服务器哪些是浏览器不接受的内容类型Accept-Language是希望收到语言编码zh-CN,en-US;q=0.7,en;q=0.3中国大陆,美式英语各占0.7Accept-Encoding: gzip, deflate, br浏览器支持的压缩编码是 gzip 和 deflate  deflate是同时使用了 LZ77 算法与哈夫曼编码(Huffman
 Coding)的一个无损数据压缩算法sdch是谷歌浏览器使用的压缩方法Referer代表了当前请求是从哪里跳转过来的cookie比较复杂是最长的请求connect:keep-alive是长时间保持连接,这样有了通知能够及时通知浏览器,打开状态能够减少域名解析次数Upgrade-Insecure-Requests浏览器自动升级请求cache-contral:max-age=0表示当访问此网页后的5秒内再次访问不会去服务器




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值