09 selenium解析和提取数据的方法

本文详细介绍了如何使用 Selenium 库在 web 浏览器中自动化操作,并解析和提取网页数据。通过实例展示了选择元素、执行 JavaScript、利用 CSS 选择器及正则表达式进行数据抓取的方法。
摘要由CSDN通过智能技术生成
# Author:Nimo_Ding
'''
selenium 是真实的模拟人操作浏览器,需要等待网页缓冲的时间.
在爬取大量数据时就会比较慢,这是它的缺点。
通常在爬虫项目中,selenium都是用在其他方法无法解决或很难解决问题的时候才会用到。
学习文档:https://seleniumhq.github.io/selenium/docs/api/py/api.html
         https://selenium-python-zh.readthedocs.io/en/latest/
静态网页:
    HTML源代码与渲染完成的Elements源代码一样。
动态网页:
    比如QQ音乐,要爬取的数据不在HTML源代码中,而是在json中,那就不能直接使用网址的url了,
    需要找到json数据的真实url。
不论数据存在哪里,浏览器总是在向服务器发起各式各样的请求,当这些请求完成后,
它们会一起组成开发者工具的Elements中所展示的,渲染完成的网页源代码。
安装浏览器的驱动:
https://localprod.pandateacher.com/python-manuscript/crawler-html/chromedriver/ChromeDriver.html

以你好蜘蛛侠这个网站为例:
https://localprod.pandateacher.com/python-manuscript/hello-spiderman/

前面我们用BeautifulSoup解析网页源代码,然后提取其中的数据。
selenium库同样也具备解析数据、提取数据的能力,
两者的不同即是:
    selenium所解析提取的,是Elements中的所有数据,
    而BeautifulSoup所解析的则只是Network中第0个请求的响应。

用selenium打
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值