python爬虫之selenium模块

当我们使用python爬虫,想爬取一个网页的数据时,要知道该网页的数据有没有动态加载出来的,没有的话就可以向该网页发起请求拿到数据,有那就要使用selenium模块了。

那我们怎么知道网页的数据是不是动态加载出来的呢?

在想要爬取的页面打开开发者工具,然后在元素(element)下找到自己想要的数据,之后在去网络(network)下刷新一下页面,一般是第一个包打开看标头(headers)里请求url和和当前的网页的url是不是一样的,要找到一样的。找到之后点击响应(response),在里面找有没有之前元素(element)看到的数据,没有那说明数据是动态加载出来的。

是动态加载的数据那怎么爬取呢?

当然就是用selenium了,selenium是基于浏览器自动化的一个模块,它能便捷的获取网站中动态加载的数据,和实现模拟登录。

安装selenium

打开pycharm,下载好selenium,之后就是下载与浏览器版本相对应的驱动程序。

大概流程是(edge浏览器):确定自己浏览器的版本,去官网下载相对应的版本,然后把驱动程序放在python的安装目录中,在看名字是不是这样的,不是就改成这样MicrosoftWebDriver.exe,最后驱动程序需要添加到path中,也就是需要添加到环境变量中。(网上有大量的安装教程这个不行就试试别的)

使用selenium

先实例化一个浏览器对象,发起请求。

driver = webdriver.Edge()
driver.get('https://www.taobao.com/')

此时在获取网页源码数据时就能拿到整个网页包括动态加载的数据,之后是就是常规用xpath,Beautifulsoup等数据解析。

html = driver.page_source

如果想让浏览器自动的运行,就需要使用selenium里面方法来写代码。

例如,我们想让浏览器搜索霉霉,我们就要用开发者工具先定位到搜索框。

搜索框是input标签,可以看到里面还有许多的属性class、part、type、id等。在selenium中有很多在标签和属性的方法。

 

find_element_by_id就是找标签里属性id的值 ,其他的类推。这里就使用找id的方法。

seach_input = driver.find_element_by_id('q') #'q'是之前属性id的值seach_input.send_key('霉霉')

 send_key()就是把想要搜索的内容复制到搜索框内。

 然后就是找到搜索按钮,也是同样的方法定位到搜索按钮。

 搜索按钮是button标签,这次我们用class属性。

btn = driver.find_element_by_class_name('control') 
btn.click()  #click的作用就是点击一下搜索按钮

 之后就是关闭。

driver.quit()

#补充一下

driver.back()      #是后退

driver.forward()    #是前进

如果要实现模拟登录的话,就要注意定位的标签是不是在iframe标签中,iframe标签是框架的一种形式。如果在就需要使用switch_to.frame()方法后再进行标签的定位。

driver.switch_to.frame('login_frame')  #切换浏览器定位的作用域,login_frame是iframe标签属性id的内容。

这是模拟登入QQ空间的代码

# -- coding:UTF-8 --
from selenium import webdriver
from time import sleep
#模拟QQ空间登入

driver = webdriver.Edge()
driver.get('https://qzone.qq.com/')
driver.switch_to.frame('login_frame')
a_tag = driver.find_element_by_id('switcher_plogin')
a_tag.click()
username_tag = driver.find_element_by_id('u')
password_tag = driver.find_element_by_id('p')
sleep(1)
username_tag.send_keys('账号')
sleep(1)
password_tag.send_keys('密码')
sleep(1)
btn = driver.find_element_by_id('login_button')
btn.click()
sleep(3)
driver.quit()

 

 最后就是实现无可视化界面和实现规避检测。

from selenium import webdriver
#实现无可视化界面/实现规避检测
from msedge.selenium_tools import EdgeOptions
from msedge.selenium_tools import Edge

edge_options = EdgeOptions()
edge_options.use_chromium = True
# 设置无界面模式,也可以添加其它设置
edge_options.add_argument('headless')  #为edge配置无头模式

# 规避被检测到的风险
edge_options.add_experimental_option("excludeSwitches", ["enable-automation"])

driver = Edge(options=edge_options)
driver.get('https://www.baidu.com')
print(driver.page_source)
driver.quit()

好了,selenium模块常用的操作就这些,selenium还有很多其他的操作,大家感兴趣可以去看看文档。

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python爬虫中可以使用Selenium库来爬取网页信息。Selenium可以模拟浏览器行为,能够爬取JavaScript渲染后的网页信息。使用Selenium爬取网页时,需要配合浏览器驱动(如ChromeDriver、FirefoxDriver)使用。 ### 回答2: Python是一种高级编程语言,吸引了大量编程人员和开发者使用Python进行Web开发、数据分析、机器学习和人工智能等领域的开发。爬虫技术正是其中的一项重要技术,用python编写爬虫程序通常更加便捷和灵活。而seleniumPython中主要的爬虫库之一,用于爬取动态Web页面,可以模拟用户在浏览器中的行为,从而获取大量数据。 使用selenium爬取信息可以分为以下几个步骤: 1.安装和导入selenium和webdriver: 首先需要安装适合的版本的selenium包,并导入selenium和webdriver模块: ```python from selenium import webdriver ``` 2.配置浏览器驱动: Selenium需要浏览器驱动(如Chrome,Firefox等)来与其进行交互,需要配置如下: ```python driver = webdriver.Chrome() ``` 其中,Chrome()表示使用Chrome浏览器驱动,如果使用Firefox,则需要改为Firefox()。 3.访问网页: 使用get()函数可以访问指定的网址: ```python driver.get("https://www.baidu.com/") ``` 4.查找元素: 使用selenium的查找元素功能,可以根据元素的ID、name、class、tag等属性进行查找: ```python element = driver.find_element_by_id("kw") # 根据ID查找 element = driver.find_element_by_name("wd") # 根据name查找 element = driver.find_element_by_class_name("s_ipt") # 根据class查找 element = driver.find_element_by_tag_name("input") # 根据tag查找 ``` 5.模拟用户输入/点击: 使用send_keys()函数模拟用户在搜索框中输入关键字,使用click()函数模拟用户在搜索按钮上点击: ```python element.send_keys("Python") element.click() ``` 6.解析数据: 使用webdriver的page_source属性可以获取网页的源代码,然后使用正则表达式或BeautifulSoup库等解析数据。 以上就是使用selenium进行爬虫的主要步骤。实际应用中,需要根据不同的网站和需要爬取的数据进行具体的配置和调整。在使用selenium过程中,需要了解一些常见的使用技巧和注意事项,例如模拟等待时间,处理弹窗、验证码等。同时,也需要遵循爬虫的法律和道德规范,不得进行非法、滥用等行为。 ### 回答3: selenium是一种自动化测试工具,它可以模拟浏览器行为,实现自动化操作。在Python爬虫中,selenium也可以用来爬取需要模拟人工操作的网站数据。 使用selenium可以实现以下操作: 1.自动模拟浏览器打开网页,获取网页源码。 2.模拟用户操作,如点击按钮、填写文本框、下拉选择框等。 3.通过获取网页源码进行数据解析。 基本流程比较简单,首先需要准备好selenium的环境,这需要下载对应的webdriver,这里我使用Chrome浏览器,并且下载了对应版本的chromedriver。 然后通过selenium启动浏览器,在浏览器中进行模拟操作,最后获取网页源码进行数据解析。 具体实现可以参考以下代码: ```python from selenium import webdriver from bs4 import BeautifulSoup # 创建一个Chrome浏览器实例 browser = webdriver.Chrome() # 访问目标网页 browser.get('https://www.example.com') # 模拟点击按钮,等待加载完成 button = browser.find_element_by_xpath('//button[@class="btn"]') button.click() browser.implicitly_wait(5) # 获取网页源码 html = browser.page_source soup = BeautifulSoup(html, 'html.parser') data = soup.find_all('div', class_='data') # 处理数据 for item in data: # do something # 关闭浏览器 browser.quit() ``` 总体来说,selenium是一个强大的爬虫工具,可以应对大部分需要模拟人工操作的场景,但也存在一些缺点,比如速度慢、占用资源高等。因此在具体应用中需要根据实际情况进行选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值