Host: www.baidu.com User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language: zh-CN,en-US;q=0.7,en;q=0.3 Accept-Encoding: gzip, deflate, br Referer: https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E5%BE%AE%E4%BF%A1%E7%BD%91%E9%A1%B5%E7%89%88&oq=idea&rsv_pq=df1d1d7900012726&rsv_t=e3eaqlL847Bxznq5p1%2BoCBx66We9aHN84KI5DPEfTfftmUIj1hWeStKJSKw&rqlang=cn&rsv_enter=0&inputT=4107&rsv_sug3=20&rsv_sug1=16&rsv_sug7=100&rsv_sug2=1&prefixsug=weixin&rsp=0&rsv_sug4=5137 Cookie: BAIDUID=CAEBA062EEDB0440ECE4BD322C75DD36:FG=1; BIDUPSID=CAEBA062EEDB0440ECE4BD322C75DD36; PSTM=1471327066; BD_UPN=133352; sug=3; sugstore=0; ORIGIN=2; bdime=0; pgv_pvi=6147141632; BD_CK_SAM=1; rsv_jmp_slow=1490604136390; BD_HOME=0; H_PS_PSSID=1464_21124_17001_21670_20930; PSINO=2; pgv_si=s4650173440; H_PS_645EC=7f23pbq7Of2TPUiudn7ywwrUThW7g2q13G6W1ZvYlZwjS9PBLiSuRMvUmDw; WWW_ST=1490614416114 Connection: keep-alive
Upgrade-Insecure-Requests: 1Cache-Control: max-age=0 之前一直在搞爬虫,但是对内部的实现机制一直没有认真研究今天抽空看了下爬虫的细节首先是网页请求的内容,前人之述备矣但写了才是算我的了解。这个请求是在火狐浏览器里面截取的。可以看到请求包括host:请求的网址。user-agnet:是用户代声明了浏览器用于 HTTP 请求的用户代理头的值Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0 是火狐的设置Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/53.0.2785.143 Chrome/53.0.2785.143 Safari/537.36是chrome的设置. accept:浏览器支持的 MIME 类型(MIME的英文全称是 Multipurpose Internet Mail Extensions多功能 Internet 邮件扩充服务) text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8q 是权重系数,范围 0 =< q <= 1,q 值越大,请求越倾向于获得其“;”之前的类型表示的内容,若没有指定 q 值,则默认为1,若被赋值为0,则用于提醒服务器哪些是浏览器不接受的内容类型Accept-Language是希望收到语言编码zh-CN,en-US;q=0.7,en;q=0.3中国大陆,美式英语各占0.7Accept-Encoding: gzip, deflate, br浏览器支持的压缩编码是 gzip 和 deflate deflate是同时使用了 LZ77 算法与哈夫曼编码(Huffman Coding)的一个无损数据压缩算法sdch是谷歌浏览器使用的压缩方法Referer代表了当前请求是从哪里跳转过来的cookie比较复杂是最长的请求connect:keep-alive是长时间保持连接,这样有了通知能够及时通知浏览器,打开状态能够减少域名解析次数Upgrade-Insecure-Requests浏览器自动升级请求cache-contral:max-age=0表示当访问此网页后的5秒内再次访问不会去服务器
http请求头数据介绍
最新推荐文章于 2024-08-12 17:17:42 发布