python操作ihtmldocument2网页元素_python爬虫Selenium库详细教程

本文介绍了Python爬虫中使用Selenium库来模拟浏览器操作,解决JavaScript渲染问题。内容涵盖声明浏览器对象、访问页面、查找元素、元素交互、等待策略以及对Cookies和选项卡的管理等。
摘要由CSDN通过智能技术生成

1020482c28e035145453c9b65291f1cb.gif

f6d14f552ea460aaf471ad36c6094168.png

在我们爬取网页过程中,经常发现我们想要获得的数据并不能简单的通过解析HTML代码获取,这些数据是通过AJAX异步加载方式或经过JS渲染后才呈现在页面上显示出来。

selenuim是一种自动化测试工具,它支持多种浏览器。而在爬虫中,我们可以使用它来模拟浏览器浏览页面,进而解决JavaScript渲染的问题。

1. 使用示例

22afc5639024fbd7345bdb24bd310709.png

2. 详细介绍

2.1 声明浏览器对象

即告诉程序,应该使用哪个浏览器进行操作

2fc156095ad98d8bfa8697674ec52eb8.png

2.2 访问页面

9546b3997e3f389e418422cdf79aa36e.png

2.3 查找元素

成功访问网页后,我们可能需要进行一些操作,比如找到搜索框然后输入关键字再敲击回车键。

因此,就需要在selenium中查找元素。

2.3.1 单个元素

selenium查找元素有两种方法。

第一种,是指定使用哪种方法去查找元素,比如指定依照CSS选择或者依照xpath去进行查找

f6b470184784b375ad40539f693b2a46.png

下面是详细的元素查找方法

find_element_by_name

find_element_by_xpath

find_element_by_link_text

find_element_by_partial_link_text

find_element_by_tag_name

find_element_by_class_name

find_element_by_css_selector

第二种,是直接使用find_element(),传入的第一个参数为需要使用的元素查找方法

26260329140a472a0475c3a6c4514740.png

2.3.2 多个元素

查找多个元素和查找单个元素的方法基本一致(只需要将查找单个元素的func里加一个s)。

查找多个元素返回的是一个list。

9355878248dabfeea3b95fbcfa827e41.png

2.4 元素交互操作

元素交互是先获取一个元素,然后对获取的元素调用交互方法。

比如说在搜索框内输入文字:

95cd75b61074041ca3a8e74d008e15fd.png

2.5 交互动作

交互动作是将动作附加到交互链中串行执行,需要使用到ActionChains。

2.6 执行JavaScript

比如拖拽下拉

881a7c6c756e08ee6e13bd3c6d39c8a0.png

2.7 获取元素信息

已经通过元素查找获取到元素后,可能还需要获取这个元素的属性、文本

2.7.1 获取属性

2f743ef2a8a7ee6d44aad1eb0d7af77e.png

2.8 Frame

如果定位到父frame,是无法查找到子frame的信息的,因此需要切换到子frame再进行查找。同理,在子frame也无法查找到父frame的信息

0f25ec6678f59de48701ed75ded45b50.png

2.9 等待

请求网页时,可能会存在AJAX异步加载的情况。而selenium只会加载主网页,并不会考虑到AJAX的情况。因此,使用时需要等待一些时间,让网页加载完全后再进行操作。

2.9.1 隐式等待

使用隐式等待时,如果webdriver没有找到指定的元素,将继续等待。超出规定时间后,如果还是没又找到指定元素则抛出找不到元素的异常。默认等待时间为0。

隐式等待是对整个页面进行等待。

需要特别说明的是:隐性等待对整个driver的周期都起作用,所以只要设置一次即可。

a0c831f084f031eec618238b31f6751b.png

2.9.2 显式等待

显示等待包含了等待条件和等待时间。

首先判定等待条件是否成立,如果成立,则直接返回;如果条件不成立,则等待最长时间为等待时间,如果超过等待时间后仍然没有满足等待等待条件,则抛出异常。

显式等待是对指定的元素进行等待。

4879178b23cb7927c385ac3cf186228a.png

2.10 浏览器的前进/后退

back实现回到前一页面,forward实现前往下一页面

c3ce9991bb38ddb1dc3a1060c0edfb68.png

2.11 对Cookies进行操作

b2f6ed1c12aa0b16b6c90f94419b6f39.png

2.12 选项卡管理

选项卡管理就是浏览器的标签。有些时候我们需要在浏览器里增加一个新标签页或者删除一个标签页,就可以使用selenium来实现。

35aaffbdf6f72e719fcf86e696b5347b.png

今天的分享到这里就告一段落了,如果你喜欢这篇文章,可以把它分享到朋友圈哦。

如果你想学习Python可以加我的助理老师微信:time3863免费领取,加了就能免费领取一套Python资料,每晚8点直播讲解Python!

声明:文章著作权归作者所有,如有侵权,请联系小编删除。

758b6bc4c75aa6adef89a7e8dae6065c.gif

d9318512a008ea717bfd81058760f6f7.png

觉得不错,点个“在看”然后转发出去00e8b686169ae3c885cba8cff887c001.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值