使用Selenium爬虫进阶

selenium 是一个自动化的web 浏览器的测试工具,我们可以用selenium 来模拟人对浏览器(browser)的操作,我们也可以使用这个工具来做爬虫。

具体的情况可以参考相关的官网: https://selenium.dev

我用python 来做开发,因此这里我们下载相关的文件,用这个网站 https://selenium.dev/downloads/

安装Selenium

安装 selenium 3.141.0 , 具体的方法你也可以参考官网 https://pypi.org/project/selenium/

方法就是

pip install selenium

安装驱动 (Drivers)

使用我们的Selenium 我们需要选择对应浏览器相关的驱动, 我用的是chrome,
现在它支持的是

浏览器链接
FireFoxhttps://github.com/mozilla/geckodriver/releases
Chromehttps://sites.google.com/a/chromium.org/chromedriver/downloads
Edgehttps://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
Safarihttps://webkit.org/blog/6900/webdriver-support-in-safari-10/

我们只需要根据我们自己想要的浏览器,来下载相关的驱动, 我用的是chrome,因此我 到对应的link 去下载我的驱动: https://sites.google.com/a/chromium.org/chromedriver/downloads

它给出的可以选择的浏览器驱动有78,77,79 这三个可以选择

根据它的官网,你可以看到:
在这里插入图片描述

所以具体要选择哪个,要看一看你的浏览器的是哪个版本,怎么看,我们先点击我chrome右上角的那三个小的点点。

选择chrome 的Help ,之后可以看见 about chrome,点击进去就可以看到了, 或者直接输入 chrome://settings/help, 也可以看到

在这里插入图片描述

上图就是我的浏览器的型号, 是 Version 77.0.3865.90 (Official Build) (64-bit)

我只要选择那个77 ,到相关的网站 https://chromedriver.storage.googleapis.com/index.html?path=77.0.3865.40/ 就可以了。

如下图所示:
在这里插入图片描述

使用说明

以Firefox 为例子,我们来看一下

from selenium import webdriver

browser = webdriver.Firefox()
browser.get('http://seleniumhq.org/')

chrome 的例子

from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.google.cz')


来吧~~~
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫进阶涉及到一些高级技术和技巧,以下是一些你可以学习和探索的主题: 1. 多线程和多进程:使用多线程或多进程可以提高爬虫的效率,同时处理多个请求或任务。 2. 使用代理:在爬取网页时,你可能会被网站封禁IP,使用代理可以轮流切换IP地址来规避封禁。 3. 反反爬虫策略:有些网站会采取一些手段防止爬虫,你需要学习如何识别和应对这些策略,比如验证码、页面解密等。 4. 使用Cookie和Session:有些网站会使用Cookie和Session来验证用户身份,你需要学习如何在爬虫中模拟登录和保持会话状态。 5. 使用数据库:将爬取到的数据存储到数据库中可以方便后续的数据分析和处理。 6. 使用框架和库:学习使用一些流行的爬虫框架和库,比如Scrapy、BeautifulSoup、Requests等,可以大大简化爬虫的开发和管理。 7. 高级数据解析和提取:学习使用正则表达式、XPath、CSS选择器等高级技术来解析和提取网页中的数据。 8. 动态网页爬取:学习使用Selenium等工具来爬取动态生成的网页内容,比如通过JavaScript异步加载的数据。 9. 分布式爬虫:学习如何构建分布式爬虫系统,可以提高爬取效率和可靠性。 10. 爬虫的合法性和道德问题:学习了解相关法律法规和伦理道德,确保你的爬虫行为合法合规。 这些都是Python爬虫进阶的一些方向,你可以根据自己的兴趣和需求选择学习的内容。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值