可以使用请求头(headers)来掩饰自己,其中最常用的就是User Agent(中文名为用户代理),是Http协议中的一部分,属于头域的组成部分,User Agent也简称 UA 。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识;表示当前访问服务器的身份信息,如果同一个身份过于频繁的访问服务器会被识别为机器身份,遭到反爬的打击,所以需要频繁的更改User-Agent信息;一般User-Agent字段包括以下几个信息:浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息;
比如:
Accept:客户端支持的数据类型,用逗号隔开,是有顺序的,分号前面是主类型,分号后是子类型;
Accept-Encoding:指定浏览器可以支持的web服务器返回内容压缩编码类型;
Accept-Language:浏览器可接受的自然语言的类型;
Connection:设置HTTP连接的持久化,通常都是Keep-Alive;
Host:服务器的域名或IP地址,如果不是通用端口,还包含该端口号;
Referer:指当前请求的URL是在什么地址引用的;
user_agent_list = [
"Opera/9.80 (X11; Linux i686; U; hu) Presto/2.9.168 Version/11.50",
"Opera/9.80 (X11; Linux