Selenium + Chrome WebDriver + JS：实现高级爬虫技巧，获取网页响应状态码！

最新推荐文章于 2024-09-20 14:00:14 发布

Jesse_Kyrie

最新推荐文章于 2024-09-20 14:00:14 发布

阅读量2.1k

点赞数 1

分类专栏： python爬虫综合文章标签： selenium chrome javascript

本文链接：https://blog.csdn.net/Jesse_Kyrie/article/details/131941107

版权

python爬虫综合专栏收录该内容

38 篇文章 7 订阅

订阅专栏

文章介绍了如何利用SeleniumWebDriver结合JavaScript执行脚本来获取网页的响应状态码，从而增强爬虫的功能。通过创建Chrome浏览器驱动，访问URL，然后执行特定的JS脚本，可以获取到类似requests库中的响应状态码信息，这对于监控网页加载情况和爬虫调试非常有用。同时，文章提醒读者应合法并负责任地使用爬虫技术。

摘要由CSDN通过智能技术生成

引言

随着爬虫技术的发展，我们使用requests库能够轻松获取响应状态码，但对于Selenium爬虫，同样可以迎刃而解。通过执行JavaScript脚本，我们可以智能地捕获网页的响应状态码，实现高级的爬虫功能。

准备工作

在开始之前，确保你已正确安装Selenium和Chrome WebDriver，并配置好环境变量。

实现技巧：通过执行js脚本获取网页响应状态码

以下是使用Selenium WebDriver执行JavaScript脚本的简洁代码：

from selenium import webdriver

# 创建Chrome浏览器驱动对象
driver = webdriver.Chrome()

url = 'https://www.baidu.com/'
driver.get(url)

# 使用JavaScript脚本获取网页的响应状态码
response_status = driver.execute_script("return window.performance.getEntries()[0].responseStatus;")

# 输出响应状态码
print("网页响应状态码:", response_status)