python爬取JS动态网页完整指南（selenium+chrome headless）

最新推荐文章于 2024-07-28 17:04:36 发布

置顶

赤夏猫

最新推荐文章于 2024-07-28 17:04:36 发布

阅读量2.8k

点赞数 2

分类专栏： Python 文章标签： python 正则表达式网页无效链接爬取动态js chrom headless

本文链接：https://blog.csdn.net/Pokharar/article/details/84347360

版权

本文介绍了如何使用selenium和chrome headless模式爬取动态生成的JavaScript网页。作者在尝试解决爬取含有<div id='XXXX'>元素的网页时，通过执行JavaScript获取HTML内容，然后利用正则表达式提取链接，确保爬取有效链接。提供了完整代码示例。

摘要由CSDN通过智能技术生成

11.23：更新，每次还要打开浏览器多影响执行效率，看到虫师讲了chrome headless，非常好用

引用添加：
from selenium.webdriver.chrome.options import Options 
代码添加：
chrome_options = Options()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome(chrome_options=chrome_options)

完整代码参考最下方

------------------------------------------------------------------简单分割线------------------------------------------------------------------

11.22：最近，是的又是最近，前端组件优化，我需要做一个非常简单但是机械的动作，就是点击各个页面的链接，确保访问都是正常的。于是想写个脚本, 简单实现验证网页无效链接.

本以为是个很简单的脚本，但是写着写着发现爬取的网页找不到<a>标签，也找不到链接地址，和前端小伙伴询问了一下，发现，html页面需要运行js后才会展示，直接爬取无法获得需要的信息。

解决思路：

1. 右键inspect后最重要的一个信息就是body部分有一个<div id='XXXX'>

2. 在网页控制台上执行 document.getElementById("ID").innerHTML可获取

最低0.47元/天解锁文章

赤夏猫

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录