python+selenium调用浏览器（IE-Chrome-Firefox）实现爬虫功能

最新推荐文章于 2024-08-05 17:22:00 发布

玲珑算局

最新推荐文章于 2024-08-05 17:22:00 发布

阅读量2.1w

点赞数 3

分类专栏： python爬虫脚本文章标签： python 浏览器 webdriver

本文链接：https://blog.csdn.net/lukaishilong/article/details/51888765

版权

本文介绍了使用Python的Selenium库调用不同浏览器（IE, Chrome, Firefox）进行爬虫操作的方法。Selenium的优势在于能获取JavaScript动态内容，但其速度较慢，适用于需要完整页面数据的场景。文中详细阐述了如何配置ChromeDriver和IEDriverServer，并提供了相关Python代码示例。" 6012063,222384,VC++颜色渐变实现技术解析,"['vc++', 'gdi+', 'windows api']

摘要由CSDN通过智能技术生成

好记性不如烂笔头，今天把selenium调用浏览器操作总结一下。

首先，得先明确，为什么要采用selenium来模拟登陆网页。最主要的原因我认为还是在于通过这种模拟登录方式获取的页面html代码，可以把js里的内容也获取到，而通过urllib方式模拟登录的方式虽然也可以伪装成浏览器的形式获取页面html代码，但是这里面的js，css代码是没有的，也就是没有动态的内容，达不到全面抓取数据的目的；当然除了selenium这种方式外，还有其他的途径也能获取到js等动态代码，这里先不做介绍了，以后再分别细说。

说了selenium的优点，就需要再强调一下它的不足，selenium调用浏览器时，跟我们手动打开浏览器效果一样，你可以想想自己打开浏览器时的镜像，从开启到加载完毕，要耗费好几秒时间，对于一般的脚本来说，好几秒可是很长的时间了，但是它就是这么傲娇，加载不完就别想玩后面的；如果你只是想偶尔打开一次抓一次，几秒倒也没什么，但如果你要循环执行的话，这个方法的效率就是低的不要不要的了。

总之，还是要开发人员自己权衡利弊，决定是否使用。

好了，接下来我们就来介绍python环境下，如何利用selenium体统的webdriver来浏览三大常用浏览器：IE，Chrome，Firefox。

1 利用Chrome浏览器，安装的chrome浏览器是没有没有提供现成的driver的，因此需要我们自己下载ChromeDriver.exe，这里可以有