提及爬虫相信大家都知道,今天为大家介绍五点解决反爬的机制。
1、SSL证书验证错误
错误:
requests.exceptions.SSLError: ("bad handshake: Error([('SSL routines',
'tls_process_server_certificate', 'certificate verify failed')],)",)
解决办法
import requests
url = "https://www.baidu.com/"
response = requests.get(url,verify=False).content.decode() # 默认解码方式为UTF-8
print(response)
2、用户user-agent过于频繁
注意:有些网站会统计单个user-agent单位时间访问服务器的次数。
解决方法:
pip install fake_useragent # 安装ua库
from fake_useragent import UserAgent
import requests
url = 'https://www.baidu.com/'
ua = UserAgent().random
header = {
'User-Agent': ua
}
response = requests.get(url, headers=header, verify=False).content.decode()
print(response)