爬虫的使用过程中,网站最简单的反爬虫就是验证发起请求的客户端是否为浏览器,因此需要爬虫模拟浏览器对网站发起请求。
这里介绍一个fake_useraent
1、伪造useragent字符串,每次请求都使用随机生成的useragen
为了减少复杂度,随机生成UA的功能通过第三方模块库fake-useragent实现,使用pip进行安装
pip install fake-useragent
2、生成一个useragen字符串只需要如下代码
from fake_useragent import UserAgent
ua = UserAgent()
各浏览器的User-Agent
这个库还有一个其他的功能,就是可以随机各浏览器的的useragen:
print(ua.ie)
Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)
Opera浏览器的useragen:
print(ua.opera)
Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.6.37 Version/11.00
Chrome浏览器的useragen:
print(ua.chrome)
Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2
Firefox浏览器的useragen:
print(ua.firefox)
Mozilla/5.0 (Windows NT 6.2; Win64; x64;