python爬虫之selenium模块

最新推荐文章于 2024-05-26 23:17:54 发布

X-Hoshino

最新推荐文章于 2024-05-26 23:17:54 发布

阅读量4.5k

点赞数 3

分类专栏： python爬虫文章标签： python 爬虫 selenium

本文链接：https://blog.csdn.net/qq_53221728/article/details/122988278

版权

python爬虫专栏收录该内容

15 篇文章 0 订阅

订阅专栏

当我们使用python爬虫，想爬取一个网页的数据时，要知道该网页的数据有没有动态加载出来的，没有的话就可以向该网页发起请求拿到数据，有那就要使用selenium模块了。

那我们怎么知道网页的数据是不是动态加载出来的呢？

在想要爬取的页面打开开发者工具，然后在元素（element）下找到自己想要的数据，之后在去网络（network）下刷新一下页面，一般是第一个包打开看标头（headers）里请求url和和当前的网页的url是不是一样的，要找到一样的。找到之后点击响应（response），在里面找有没有之前元素（element）看到的数据，没有那说明数据是动态加载出来的。

是动态加载的数据那怎么爬取呢？

当然就是用selenium了，selenium是基于浏览器自动化的一个模块，它能便捷的获取网站中动态加载的数据，和实现模拟登录。

安装selenium

打开pycharm，下载好selenium，之后就是下载与浏览器版本相对应的驱动程序。

大概流程是（edge浏览器）：确定自己浏览器的版本，去官网下载相对应的版本，然后把驱动程序放在python的安装目录中，在看名字是不是这样的，不是就改成这样MicrosoftWebDriver.exe，最后驱动程序需要添加到path中，也就是需要添加到环境变量中。（网上有大量的安装教程这个不行就试试别的）

使用selenium

先实例化一个浏览器对象，发起请求。

driver = webdriver.Edge()
driver.get('https://www.taobao.com/')

此时在获取网页源码数据时就能拿到整个网页包括动态加载的数据，之后是就是常规用xpath，Beautifulsoup等数据解析。

html = driver.page_source

如果想让浏览器自动的运行，就需要使用selenium里面方法来写代码。

例如，我们想让浏览器搜索霉霉，我们就要用开发者工具先定位到搜索框。

搜索框是input标签，可以看到里面还有许多的属性class、part、type、id等。在selenium中有很多在标签和属性的方法。

find_element_by_id就是找标签里属性id的值，其他的类推。这里就使用找id的方法。

seach_input = driver.find_element_by_id('q') #'q'是之前属性id的值seach_input.send_key('霉霉')

send_key()就是把想要搜索的内容复制到搜索框内。

然后就是找到搜索按钮，也是同样的方法定位到搜索按钮。

搜索按钮是button标签，这次我们用class属性。

btn = driver.find_element_by_class_name('control') 
btn.click()  #click的作用就是点击一下搜索按钮

之后就是关闭。

driver.quit()
#补充一下

driver.back() #是后退

driver.forward() #是前进

如果要实现模拟登录的话，就要注意定位的标签是不是在iframe标签中，iframe标签是框架的一种形式。如果在就需要使用switch_to.frame()方法后再进行标签的定位。

driver.switch_to.frame('login_frame')  #切换浏览器定位的作用域，login_frame是iframe标签属性id的内容。

这是模拟登入QQ空间的代码

# -- coding:UTF-8 --
from selenium import webdriver
from time import sleep
#模拟QQ空间登入

driver = webdriver.Edge()
driver.get('https://qzone.qq.com/')
driver.switch_to.frame('login_frame')
a_tag = driver.find_element_by_id('switcher_plogin')
a_tag.click()
username_tag = driver.find_element_by_id('u')
password_tag = driver.find_element_by_id('p')
sleep(1)
username_tag.send_keys('账号')
sleep(1)
password_tag.send_keys('密码')
sleep(1)
btn = driver.find_element_by_id('login_button')
btn.click()
sleep(3)
driver.quit()

最后就是实现无可视化界面和实现规避检测。

from selenium import webdriver
#实现无可视化界面/实现规避检测
from msedge.selenium_tools import EdgeOptions
from msedge.selenium_tools import Edge

edge_options = EdgeOptions()
edge_options.use_chromium = True
# 设置无界面模式，也可以添加其它设置
edge_options.add_argument('headless')  #为edge配置无头模式

# 规避被检测到的风险
edge_options.add_experimental_option("excludeSwitches", ["enable-automation"])

driver = Edge(options=edge_options)
driver.get('https://www.baidu.com')
print(driver.page_source)
driver.quit()

好了，selenium模块常用的操作就这些，selenium还有很多其他的操作，大家感兴趣可以去看看文档。

X-Hoshino

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之selenium模块

当我们使用python爬虫，想爬取一个网页的数据时，要知道该网页的数据有没有动态加载出来的，没有的话就可以向该网页发起请求拿到数据，有那就要使用selenium模块了。那我们怎么知道网页的数据是不是动态加载出来的呢？在想要爬取的页面打开开发者工具，然后在元素（element）下找到自己想要的数据，之后在去网络（network）下刷新一下页面，一般是第一个包打开看标头（headers）里请求url和和当前的网页的url是不是一样的，要找到一样的。找到之后点击响应（response），在里面找有没有之前
复制链接

扫一扫