11.23:更新,每次还要打开浏览器多影响执行效率,看到虫师讲了chrome headless,非常好用
引用添加:
from selenium.webdriver.chrome.options import Options
代码添加:
chrome_options = Options()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome(chrome_options=chrome_options)
完整代码参考最下方
------------------------------------------------------------------简单分割线------------------------------------------------------------------
11.22:最近,是的又是最近,前端组件优化,我需要做一个非常简单但是机械的动作,就是点击各个页面的链接,确保访问都是正常的。于是想写个脚本, 简单实现验证网页无效链接.
本以为是个很简单的脚本,但是写着写着发现爬取的网页找不到<a>标签,也找不到链接地址,和前端小伙伴询问了一下,发现,html页面需要运行js后才会展示,直接爬取无法获得需要的信息。
解决思路:
1. 右键inspect后最重要的一个信息就是body部分有一个<div id='XXXX'>
2. 在网页控制台上执行 document.getElementById("ID").innerHTML可获取