Hello大家好,我们又见面了!
这是我写的第一篇python文章,还望各位朋友们多多指教!
废话不多说,我们进入正题。
本文为EricNTH的原创博客,转载请注明出处!
Http请求头(header)
写过python爬虫的人都知道,在用requests发送http请求时,都会有一个header。里面装了这次http请求的头信息。要想做好爬虫,设计好请求头是非常重要的,否则万一被反爬虫查出(很容易),得不偿失。
以下简介来自百度:
HTTP客户程序(例如浏览器),向服务器发送请求的时候必须指明请求类型(一般是GET或者POST)。如有必要,客户程序还可以选择发送其他的请求头。大多数请求头并不是必需的,但Content-Length除外。对于POST请求来说Content-Length必须出现。 (HttpServletRequest)
接下来由我来给大家介绍http请求头中(可能是)最重要的两部分,也是最容易被反爬虫利用的两部分。你若不想让自己被发现是爬虫,下面就请听好啦~
User-agent
User-Agent 首部包含了一个特征字符串,用来让网络协议的对端来识别发起请求的用户代理软件的应用类型、操作系统、软件开发商以及版本号。
一般,我们写爬虫时,User-agent总是必不可少的.。
你可以通过它来伪装成浏览器在访问。
一般,user-agent里装的时访问的浏览器,以及版本号等。
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, lik