Python-selenium抓取动态页面 (2) -- 基本使用

最新推荐文章于 2022-06-08 15:44:19 发布

cyxueecust

最新推荐文章于 2022-06-08 15:44:19 发布

阅读量313

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/cyxueecust/article/details/103822005

版权

本文详细介绍了如何使用Python的selenium库抓取动态网页内容，包括模拟按钮点击和结合BeautifulSoup进行更复杂的数据提取。示例代码演示了获取页面元素、模拟点击以及在遇到错误时优雅关闭浏览器的流程。

摘要由CSDN通过智能技术生成

本文介绍python-selenium库的最基本的使用方法。我们实现一个非常简单的爬虫，抓取网页中的列表，模拟按钮点击，并抓取修改后的内容。

代码示例

网页是从w3schools上找的，在这个链接的基础上插入了一个列表。把网页内容保存到/root/workspace/test_page.html。

<!DOCTYPE html>
<html>
<body>

<h2>What Can JavaScript Do?</h2>

<p id="demo">JavaScript can change HTML content.</p>

<button type="button" onclick='document.getElementById("demo").innerHTML = "Hello JavaScript!"'>Click Me!</button>

<ul class="list">
  <li>Coffee</li>
  <li>Tea</li>
  <li>Milk</li>
</ul> 

</body>
</html>

先把整体代码贴一下，后面进行具体解释。它可以打印出点击网页中的button前后，id=“demo”元素的文本内容。