1.通过headers中的User-Agent字段来反爬
随机生成User-Agent:
import random
def get_ua():
first_num = random.randint(55, 62)
third_num = random.randint(0, 3200)
fourth_num = random.randint(0, 140)
os_type = [
'(Windows NT 6.1; WOW64)', '(Windows NT 10.0; WOW64)', '(X11; Linux x86_64)',
'(Macintosh; Intel Mac OS X 10_12_6)'
]
chrome_version = 'Chrome/{}.0.{}.{}'.format(first_num, third_num, fourth_num)
ua = ' '.join(['Mozilla/5.0', random.choice(os_type), 'AppleWebKit/537.36',
'(KHTML, like Gecko)', chrome_version, 'Safari/537.36']
)
return ua
2. 通过referer字段或者是其他字段来反爬
通过referer字段来反爬,我们只需要添加上即可
3.通过cookie来反爬
-
如果目标网站不需要登录 每次请求带上前一次返回的cookie,比如requests模块的session
-
如果目标网站需要登录 准备多个账号,通过一个程序获取账号对应的cookie,组成cookie池,其他程序使用这些cookie
4.通过js来反爬
使用selenium
5.通过验证码来反爬
通过打码平台或者是机器学习的方法识别验证码,其中打码平台廉价易用
6.通过ip地址来反爬
同一个ip大量请求了对方服务器,有更大的可能性会被识别为爬虫,对应的通过购买高质量的ip的方式能够结局问题
7.通过自定义字体来反爬
解决思路:切换到手机版
8.通过css来反爬
解决思路:计算css的偏移