背景:
通过User-Agent
构建请求头headers
能够将爬虫伪装,但是有的网站会去检查请求头,进而封掉ip地址。所以在每次提交网站请求的时候,使用随机请求头迷惑对方能更好的保护我们的爬虫。
如我之前的例子,用了一个比较笨的方法:搜集各种User-Agent
构建请求头,写一个随机函数,每次挑选一个User-Agent
。然而人生苦短,聪明的程序员早已专门设计了一个库来生成header用于python爬虫伪装。
代码如下:
import fake_useragent
from fake_useragent import UserAgent
print("---以下是随机的请求头--")
for i in range(5):
print(UserAgent().random)
print("---以下是指定的请求头--")
print(UserAgent().chrome)
print(UserAgent().ie)
print(UserAgent().firefox)
print(UserAgent().opera)
print(UserAgent().safari)