盘点selenium phantomJS使用的坑

最新推荐文章于 2024-09-07 08:42:28 发布

芝麻开窗-阿波

最新推荐文章于 2024-09-07 08:42:28 发布

阅读量540

点赞数

文章标签： python selenium 爬虫

本文链接：https://blog.csdn.net/u010113413/article/details/118584891

版权

说到python爬虫，刚开始主要用urllib库，虽然接口比较繁琐，但也能实现基本功能。等见识了requests库的威力后，便放弃urllib库，并且也不打算回去了。但对一些动态加载的网站，经常要先分析请求，再用requests模拟，比较麻烦。直到遇到了selenium库，才发现爬动态网页也可以这么简单，果断入坑！

selenium是python的一个第三方自动化测试库，虽然是测试库，却也非常适合用来写爬虫，而phantomJS是其子包webdriver下面的一个浏览器。phantomJS本身是一个无头浏览器（headless browser），也称无界面浏览器。可以在通过官网下载运行phantomjs.exe，简单几行代码也能访问网页，爬取数据。但本文主要讨论通过python的selenium库使用phantomJS。除了phantomJS浏览器，webdriver还整合了Chrome、Firefox、IE等浏览器，并提供了操作这些浏览器的接口。

由于phantomJS是无界面浏览器，不需要界面的同时占用的内存也相对较小，更适用于大规模多进程爬数据（试想，如果开几十个Chrome进程爬数据，那真是内存噩梦！）。本文主要讨论使用selenium phantomJS过程中遇到的bug，而不是selenium phantomJS使用教程，有需要了解selenium基本用法的同学，请移步官方文档。

个人用phantomJS爬数据有一段时间了，爬虫程序也大致完工了，过程中遇到了很多坑，统一总结如下。