场景
很多时候,我们在使用selenium做模拟爬取的时候,会碰到被检测的情况,其实关于selenium的检测是很好做的,因为selenium生成的浏览器在请求的时候,头部都会带上selenium的特征,这个特征就很好被服务器检测。
解决方案
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
# from selenium.webdriver.chrome.by import By
import subprocess
chrome_driver_path = "你的chromedriver路径"
command = "C:/Users/admin/Desktop/chrome.lnk【改成你自己的chrome路径】 --remote-debugging-port=9222 --user-data-dir=C:\\selenium\\AutomationProfile"
subprocess.Popen(command, shell=True)
chrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
chrome_options.add_argument("window-size=1920,1080")
driver = webdriver.Chrome(executable_path=chrome_driver_path, chrome_options=chrome_options)
driver.implicitly_wait(10) # 设置隐式等待
try:
driver.maximize_window()
except Exception as e:
print(e)
此时再去使用driver就可以规避大量的检测啦~
当然,如果上述方案还不行的话,建议降低浏览器的版本,68以上版本,但是也不要太新