selenium 通过 chrome webdriver 的log获得谷歌network调试接口ajax response数据

最新推荐文章于 2024-06-19 12:54:04 发布

bigcarp

最新推荐文章于 2024-06-19 12:54:04 发布

阅读量2.6k

点赞数 2

文章标签： selenium chrome ajax

原文链接：https://blog.csdn.net/weixin_34722157/article/details/112436963

版权

获取response数据有几种方式，最常见的是用代理，另外还有javascript 注入hook的方式

这里介绍的是log的方式

https://blog.csdn.net/weixin_34722157/article/details/112436963

一般我们用webdriver时候都是通过xpath，css之类的选择器取页面的数据，今天我教你另一种方案，直接获得response！

import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities        
        
 
        options = webdriver.ChromeOptions()
        # options.add_argument('--headless')   #无头模式
        # options.add_argument('--no-sandbox') #非沙盒
        # options.add_argument('--disable-gpu') #禁用gpu，一般生产环境会使用，因为服务器大多没有gpu
        prefs = {"profile.managed_default_content_settings.images": 2} #不加载图片
        options.add_experimental_option("prefs", prefs)
        #重点来了
        options.add_experimental_option('perfLoggingPrefs', {'enableNetwork': True})
        options.add_argument('--disable-dev-shm-usage')
        options.add_experimental_option("excludeSwitches", ["enable-automation"])
        options.add_experimental_option('useAutomationExtension', False)
        caps = DesiredCapabilities.CHROME
 
        #重点又来了
        caps['goog:loggingPrefs'] = {'performance': 'ALL'}   
        driver = webdriver.Chrome(options=options, desired_capabilities=caps)
        #driver.implicitly_wait(5)
        # driver = webdriver.Chrome(desired_capabilities=caps)
 
        #屏蔽webdrive检测
        driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
            "source": """
                                               Object.defineProperty(navigator, 'webdriver', {
                                                 get: () => undefined
                                               })
                                             """
        })

重点就是这几个设置，我上面的建议都加上：

options.add_experimental_option('perfLoggingPrefs', {'enableNetwork': True})

caps['goog:loggingPrefs'] = {'performance': 'ALL'}

看名字也能知道是和log有关的；log里面记录了每一个http请求的id，通过id，就可以直接获得response了

def get_body(self, log, driver):
        #获得log里面的requestid，通过id来获得response的内容
        requestId = json.loads(log.get("message")).get("message").get("params").get("requestId")
        # 
        driver.execute_cdp_cmd('Network.getResponseBody', {'requestId': requestId})
        response_dict = driver.execute_cdp_cmd('Network.getResponseBody', {'requestId': requestId})
        #注意，这里获得的body是字符串形式，需要序列化为json对象/
        body = response_dict["body"]        
        Jres = json.loads(body)
        return Jres

driver.get(url="目标url")
#chrome的日志将开启并记录所有的访问。
try:
    logs = driver.get_log("performance")
    for log in logs[:]:
    try:
        url = json.loads(log.get("message")).get("message").get("params").get("request").get("url")
    except:
        url = None
    if url:
 
    # 111   左上角个人档案信息 ->，这里是我要获取的内容的url正则，你根据你自己要获取的接口编写。
    # 正则表达是匹配 需要抓取的那一个请求 
    regex_person_document = re.compile(
                        'https://star.toutiao.com/v/api/user/author_page/?author_id=(d+)&recommend=false&platform_source=1'
                                                               )
   if regex_person_document.findall(url):
        # 获得了 json形式的响应体，就能按需要获得里面的数据了
      Jres = self.get_body(log, driver)
except:
  pass

bigcarp

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
selenium 通过 chrome webdriver 的log获得谷歌network调试接口ajax response数据

获取response数据有几种方式，最常见的是用代理，另外还有javascript注入hook的方式这里介绍的是log的方式https://blog.csdn.net/weixin_34722157/article/details/112436963一般我们用webdriver时候都是通过xpath，css之类的选择器取页面的数据，今天我教你另一种方案，直接获得response！import webdriverfrom selenium.webdriver.common.des...
复制链接

扫一扫