python爬虫之动态渲染页面的爬取Selenium

本文介绍了如何使用Selenium解决动态渲染网页的爬取问题。Selenium是一个Web应用程序测试工具,它可以在浏览器中模拟用户操作。文章详细讲解了Selenium的基本使用,包括安装、声明浏览器对象、访问页面、定位节点、节点交互、动作链、键盘鼠标事件、获取节点信息、多表单切换、延时等待、前进后退、cookies管理以及调用JavaScript等。
摘要由CSDN通过智能技术生成


前言

在实际情况中有许多网站部分网页并非原始HTML代码,而是用javascript生成的,这并不包含Ajax请求。或者还有许多网站虽是Ajax获取数据,但Ajax接口存在加密的情况,以上两种情况都很难用Ajax来抓取。为了解决这个问题可以直接使用模拟浏览器的方法,巧妙的避开破解AJax接口等一系难题。本文就将介绍部分python提供的模拟浏览器的库,如Selenium、Splash


提示:以下是本篇文章正文内容

一、Selenium是什么?

Selenium [读音sə’liːniəm] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera,Edge等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。驱动浏览器执行特定的动作如点击等。同时还可以爬取页面,可以做到可见即可爬。

基本使用步骤:

  1. 声明使用浏览器类型如谷歌webriver.Chrome()
  2. 访问网页。
  3. 关闭浏览器。
    这只是大致流程,其中每一步之间都可以使用其他操作。
from selenium import webdriver
brower=webdriver.Chrome()
brower.get('https://lddssss /forum.html?mod=viewthread&tid=479470&extra=page%3D1')
print(brower)
brower.close()

1.安装

1.安装Selenium:pip install Selenium
2.安装浏览器驱动WebDriver
3.将存放浏览器驱动文件的目录路径添加到系统环境变量中,注意:下载文件要与浏览器版本相同

详解Selenium的用法

声明浏览器对象

selenium支持的浏览器特别多。介绍三个常见的。

  • brower=webdriver.Chrome()谷歌浏览器
  • brower=webdriver.Firefox ()火狐
  • brower=webdriver.Edge ()IE

声明浏览器之前一定要确定是否安装了相应浏览器和驱动。

访问页面

最常用的浏览器对象的get方法。

查找节点

Selenium提供了八种定位元素的方法,利用这些方法,用户可以定位元素,提取数据等。
分别是id、name、class_name、tag_name、link _text通过a标签的text来定位、partial_link _ext link _text的具有模糊匹配版、xpath 利用XPATH定位、css_selector 利用CSS选择器来定位

使用形式

find_element_by_方法名 :返回单个对象
find_elements_by_方法名:返回列表

from selenium import webdriver
browser=webdriver.Chrome()
browser.get('http://www.baidu.com')
browser.find_element_by_link_text('hao123').click()#点击hao123
#定位百度输入框输入python,并点击搜索按钮
browser.find_element_by_css_selector('#kw').send_key('python')
browser.find_element_by_css_selector('#su').click()

节点交互

  • 输入文字send_key()
  • 清除文字clear()
  • 点击按钮click()

动作链

我们使用浏览器的时候有时候会需要进行一些动作。如实现一个节点的拖拽等操作操作。

鼠标事件

在Selenium webDriver中鼠标操作封装在ActionChains类中来使用,以下是类方法介绍:

  • ActionChains(driver)构造ActionChains对象
  • content_click()单击鼠标右键
  • double
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python爬虫中可以使用Selenium库来爬取网页信息。Selenium可以模拟浏览器行为,能够爬取JavaScript渲染后的网页信息。使用Selenium爬取网页时,需要配合浏览器驱动(如ChromeDriver、FirefoxDriver)使用。 ### 回答2: Python是一种高级编程语言,吸引了大量编程人员和开发者使用Python进行Web开发、数据分析、机器学习和人工智能等领域的开发。爬虫技术正是其中的一项重要技术,用python编写爬虫程序通常更加便捷和灵活。而seleniumPython中主要的爬虫库之一,用于爬取动态Web页面,可以模拟用户在浏览器中的行为,从而获取大量数据。 使用selenium爬取信息可以分为以下几个步骤: 1.安装和导入selenium和webdriver: 首先需要安装适合的版本的selenium包,并导入selenium和webdriver模块: ```python from selenium import webdriver ``` 2.配置浏览器驱动: Selenium需要浏览器驱动(如Chrome,Firefox等)来与其进行交互,需要配置如下: ```python driver = webdriver.Chrome() ``` 其中,Chrome()表示使用Chrome浏览器驱动,如果使用Firefox,则需要改为Firefox()。 3.访问网页: 使用get()函数可以访问指定的网址: ```python driver.get("https://www.baidu.com/") ``` 4.查找元素: 使用selenium的查找元素功能,可以根据元素的ID、name、class、tag等属性进行查找: ```python element = driver.find_element_by_id("kw") # 根据ID查找 element = driver.find_element_by_name("wd") # 根据name查找 element = driver.find_element_by_class_name("s_ipt") # 根据class查找 element = driver.find_element_by_tag_name("input") # 根据tag查找 ``` 5.模拟用户输入/点击: 使用send_keys()函数模拟用户在搜索框中输入关键字,使用click()函数模拟用户在搜索按钮上点击: ```python element.send_keys("Python") element.click() ``` 6.解析数据: 使用webdriver的page_source属性可以获取网页的源代码,然后使用正则表达式或BeautifulSoup库等解析数据。 以上就是使用selenium进行爬虫的主要步骤。实际应用中,需要根据不同的网站和需要爬取的数据进行具体的配置和调整。在使用selenium过程中,需要了解一些常见的使用技巧和注意事项,例如模拟等待时间,处理弹窗、验证码等。同时,也需要遵循爬虫的法律和道德规范,不得进行非法、滥用等行为。 ### 回答3: selenium是一种自动化测试工具,它可以模拟浏览器行为,实现自动化操作。在Python爬虫中,selenium也可以用来爬取需要模拟人工操作的网站数据。 使用selenium可以实现以下操作: 1.自动模拟浏览器打开网页,获取网页源码。 2.模拟用户操作,如点击按钮、填写文本框、下拉选择框等。 3.通过获取网页源码进行数据解析。 基本流程比较简单,首先需要准备好selenium的环境,这需要下载对应的webdriver,这里我使用Chrome浏览器,并且下载了对应版本的chromedriver。 然后通过selenium启动浏览器,在浏览器中进行模拟操作,最后获取网页源码进行数据解析。 具体实现可以参考以下代码: ```python from selenium import webdriver from bs4 import BeautifulSoup # 创建一个Chrome浏览器实例 browser = webdriver.Chrome() # 访问目标网页 browser.get('https://www.example.com') # 模拟点击按钮,等待加载完成 button = browser.find_element_by_xpath('//button[@class="btn"]') button.click() browser.implicitly_wait(5) # 获取网页源码 html = browser.page_source soup = BeautifulSoup(html, 'html.parser') data = soup.find_all('div', class_='data') # 处理数据 for item in data: # do something # 关闭浏览器 browser.quit() ``` 总体来说,selenium是一个强大的爬虫工具,可以应对大部分需要模拟人工操作的场景,但也存在一些缺点,比如速度慢、占用资源高等。因此在具体应用中需要根据实际情况进行选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值