本文介绍python-selenium库的最基本的使用方法。我们实现一个非常简单的爬虫,抓取网页中的列表,模拟按钮点击,并抓取修改后的内容。
代码示例
网页是从w3schools上找的,在这个链接的基础上插入了一个列表。把网页内容保存到/root/workspace/test_page.html。
<!DOCTYPE html>
<html>
<body>
<h2>What Can JavaScript Do?</h2>
<p id="demo">JavaScript can change HTML content.</p>
<button type="button" onclick='document.getElementById("demo").innerHTML = "Hello JavaScript!"'>Click Me!</button>
<ul class="list">
<li>Coffee</li>
<li>Tea</li>
<li>Milk</li>
</ul>
</body>
</html>
先把整体代码贴一下,后面进行具体解释。它可以打印出点击网页中的button前后,id=“demo”元素的文本内容。