python爬虫爬取数据时不能拿到动态渲染上去的数据

今天在写一个爬虫小工具时,发现简单的编写只能拿到页面一开始渲染上去的静态数据,而无法拿到调用后台接口返回后渲染上去的数据,要解决这个问题,可以使用selenium包里面的方法去模拟一个浏览器,执行对应的操作,示范如下:

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 设置Chrome选项
chrome_options = Options()
chrome_options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0")

# 创建WebDriver实例
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)

# 打开网页
driver.get("需要爬取的url")

# 等待数据加载
try:
    # 假设数据呈现在某个特定的HTML元素中,这里用class_name作为例子
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, 'article-page-detail'))  # 等待指定
    )

    # 获取数据
    data_elements = driver.find_elements(By.ID, 'article-page-detail')  # 指定需要爬取的HTML元素
    for element in data_elements:
        print(element.get_attribute('outerHTML'))  # 输出整个 HTML 代码

except Exception as e:
    print("发生错误:", e)

finally:
    # 关闭WebDriver
    driver.quit()

因为我的需求只是某个页面前端刚渲染的时候没有数据,需要等后台接口请求结束才有数据,所以只做了一个延迟获取,selenium还可以模拟浏览器下滑、点击等时间,做到“所见即可爬”,具体可以参考其官方文档

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值