python爬取JS动态网页完整指南(selenium+chrome headless)

11.23:更新,每次还要打开浏览器多影响执行效率,看到虫师讲了chrome headless,非常好用引用添加:from selenium.webdriver.chrome.options import Options 代码添加:chrome_options = Options()chrome_options.add_argument('--headless')driver = ...
摘要由CSDN通过智能技术生成

11.23:更新,每次还要打开浏览器多影响执行效率,看到虫师讲了chrome headless,非常好用

引用添加:
from selenium.webdriver.chrome.options import Options 
代码添加:
chrome_options = Options()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome(chrome_options=chrome_options)

完整代码参考最下方

 

       ------------------------------------------------------------------简单分割线------------------------------------------------------------------

11.22:最近,是的又是最近,前端组件优化,我需要做一个非常简单但是机械的动作,就是点击各个页面的链接,确保访问都是正常的。于是想写个脚本, 简单实现验证网页无效链接.

本以为是个很简单的脚本,但是写着写着发现爬取的网页找不到<a>标签,也找不到链接地址,和前端小伙伴询问了一下,发现,html页面需要运行js后才会展示,直接爬取无法获得需要的信息。

解决思路:

1. 右键inspect后最重要的一个信息就是body部分有一个<div id='XXXX'>

2. 在网页控制台上执行 document.getElementById("ID").innerHTML可获取

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值