09 selenium解析和提取数据的方法

最新推荐文章于 2023-09-11 15:05:24 发布

KeepChasing1

最新推荐文章于 2023-09-11 15:05:24 发布

阅读量2.2k

点赞数 1

分类专栏： # 风变编程_爬虫精进

本文链接：https://blog.csdn.net/qq_40678779/article/details/107131780

版权

本文详细介绍了如何使用 Selenium 库在 web 浏览器中自动化操作，并解析和提取网页数据。通过实例展示了选择元素、执行 JavaScript、利用 CSS 选择器及正则表达式进行数据抓取的方法。

摘要由CSDN通过智能技术生成

# Author:Nimo_Ding
'''
selenium 是真实的模拟人操作浏览器，需要等待网页缓冲的时间.
在爬取大量数据时就会比较慢，这是它的缺点。
通常在爬虫项目中，selenium都是用在其他方法无法解决或很难解决问题的时候才会用到。
学习文档：https://seleniumhq.github.io/selenium/docs/api/py/api.html
         https://selenium-python-zh.readthedocs.io/en/latest/
静态网页：
    HTML源代码与渲染完成的Elements源代码一样。
动态网页：
    比如QQ音乐，要爬取的数据不在HTML源代码中，而是在json中，那就不能直接使用网址的url了，
    需要找到json数据的真实url。
不论数据存在哪里，浏览器总是在向服务器发起各式各样的请求，当这些请求完成后，
它们会一起组成开发者工具的Elements中所展示的，渲染完成的网页源代码。
安装浏览器的驱动：
https://localprod.pandateacher.com/python-manuscript/crawler-html/chromedriver/ChromeDriver.html

以你好蜘蛛侠这个网站为例：
https://localprod.pandateacher.com/python-manuscript/hello-spiderman/

前面我们用BeautifulSoup解析网页源代码，然后提取其中的数据。
selenium库同样也具备解析数据、提取数据的能力，
两者的不同即是：
    selenium所解析提取的，是Elements中的所有数据，
    而BeautifulSoup所解析的则只是Network中第0个请求的响应。

用selenium打