请求头,用来说明服务器要的附加信息,比较重要的信息有Cookie、Referer、User-Agent等
Accept:请求报头域,用于指定客户端可接受哪些类型的信息。
Accept-Language:指定客户端可接受的语言类型。
Accept-Encoding:指定客户端可接受的内容编码。
Host:用于指定请求资源的主机IP和端口号,其内容为请求URL的原始服务器或网关的位置。从Http1.1版本开始,请求必须包含此内容。
Cookie:也常用复数形式Cookies,这也是网站为了辨别用户进行会话跟踪而存在于用户本地的数据。他的主要功能是维持当前访问会话。例如,我们输入用户名和密码后成功登录某个网站,服务器会用会话保存登录信息,后面我们每次刷新或者请求该站点的其他页面时,会发现都是登录状态,这就是Cookies的功劳。Cookies里面有信息标识了我们所对应的服务其会话,每次浏览器在请求该站点时,都会在请求头中加上Cookies并将其发送给服务器,服务器通过Cookies识别出是我们自己,并且查出当前状态是登录状态,所以返回结果就是登录之后才能看到的网页内容。
Referer:此内容用来标识这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应处理,如做来源统计、防盗链处理等。
User-Agent:简称UA,它是一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息,可以伪装为浏览器,如果不加,很可能被识别出为爬虫。
Content-Type:互联网媒体类型(Internet Media Type)或者MIME类型,在Http协议消息头中,它用来表示具体请求中的媒体类型信息。列如,text/html代表HTML格式,image/gif代表GIF图片,application/json代表JSON类型,更多对应关系可以查看此对应表:HTTP Content-type 对照表
请求头是请求的重要组成部分,在写爬虫时,大部分情况都需要设定请求头。