在爬取马蜂窝南京景点的评论时,模拟浏览器点进景点后发现页面是空白,状态代码是521,即网页反爬虫了。
解决办法:
middlewares.py文件中class ScrapMfwDownloaderMiddleware中的def __init__(self)方法应该写成
option = ChromeOptions() option.add_experimental_option('excludeSwitches', ['enable-automation']) option.add_argument("--disable-blink-features=AutomationControlled") # 以上是新添加的!加上去之后状态代码就不是521了!就不反爬虫了! self.driver = webdriver.Chrome(options=option)
还需要添加包:
from selenium.webdriver import ChromeOptions