今天在写一个爬虫小工具时,发现简单的编写只能拿到页面一开始渲染上去的静态数据,而无法拿到调用后台接口返回后渲染上去的数据,要解决这个问题,可以使用selenium包里面的方法去模拟一个浏览器,执行对应的操作,示范如下:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
# 设置Chrome选项
chrome_options = Options()
chrome_options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0")
# 创建WebDriver实例
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
# 打开网页
driver.get("需要爬取的url")
# 等待数据加载
try:
# 假设数据呈现在某个特定的HTML元素中,这里用class_name作为例子
WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.ID, 'article-page-detail')) # 等待指定
)
# 获取数据
data_elements = driver.find_elements(By.ID, 'article-page-detail') # 指定需要爬取的HTML元素
for element in data_elements:
print(element.get_attribute('outerHTML')) # 输出整个 HTML 代码
except Exception as e:
print("发生错误:", e)
finally:
# 关闭WebDriver
driver.quit()
因为我的需求只是某个页面前端刚渲染的时候没有数据,需要等后台接口请求结束才有数据,所以只做了一个延迟获取,selenium还可以模拟浏览器下滑、点击等时间,做到“所见即可爬”,具体可以参考其官方文档