python爬虫seleium模块基本操作

最新推荐文章于 2023-12-27 19:31:45 发布

进击的小叶

最新推荐文章于 2023-12-27 19:31:45 发布

阅读量563

点赞数

分类专栏：爬虫 python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_42435368/article/details/118712528

版权

爬虫同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

python

7 篇文章 0 订阅

订阅专栏

seleium是python中浏览器驱动模块，也是一个第三方库，在网络爬虫中，使用requests模块访问网站时，常常会遇到各种反爬措施，而seleium的出现可以模拟用户进行浏览器操作，能够看到正常用户使用浏览器的数据。

使用seleium模块和requests不同，并不是直接import一下就好，它需要用户下载浏览器驱动程序，谷歌浏览器就下载 chromedriver 火狐浏览器就下载geckodriver，以下两篇文章可以学到方法，这里不作为重点

谷歌：https://blog.csdn.net/zhoukeguai/article/details/113247342

火狐：https://blog.csdn.net/hy_696/article/details/80114065

导入时代码为from seleium import webdriver

首先我们需要实例化一个对象，作为后续的操作对象

browser=webdriver.Firefox(executable_path=r'D:\python\python安装\Scripts\geckodriver.exe')

这是火狐浏览器对应的代码，谷歌浏览器就把英文火狐换成谷歌，后面的是下载的对应浏览器驱动的路径。

小编在后面会综合引入一个例子，用下面的内容控制浏览器

对于实例好的brower对象，有几种主要的方法：

get为访问的网址 maximize/minimize_window()窗口最大最小化

page_source 当前页面源码 quit()退出

还有最重要的就是定位功能

seleium定位的方式是多种的，主要进行id、class、xpath、css选择器定位等，其中他们的值直接在网页源码中可以获得，想定位哪个标签就引入它们的值，对应的方法为

find_element_by_id/class_name/xpath()，括号内引入字符串，写入对应的值

其中id、class复制即可，xpath、css选择器也不用自己输入，如下图

火狐、谷歌都可以直接将这些内容复制到粘贴板上

举个例子，如果我们需要点击一个按钮，其class name为submit，点击操作分为两步，先定位此按钮，再进行点击，例如

search_btn = browser.find_element_by_class_name('submit')
search_btn.click()

将这个按钮赋给一个变量search_btn，再.click即可

另外使用seleium可以查看标签的属性，例如它的herf属性，大小，位置，是否可用等等，后面的代码包含此内容

另外还可以对文本框内容进行代码中的赋值，利用send_keys函数，后面的代码也包含此内容

小编将上述内容总结成一段访问淘宝的代码段，并配上相应视频。

from selenium import webdriver
import time
browser=webdriver.Firefox(executable_path=r'D:\python\python安装\Scripts\geckodriver.exe')
browser.get('https://uland.taobao.com/sem/tbsearch?&keyword=手机')
browser.maximize_window()#窗口最大化
#获取源码
page = browser.page_source
time.sleep(1)
#通过id定位到输入文本框   并将关键词手机清空
input_key = browser.find_element_by_id('J_search_key').clear()
time.sleep(1)
#将搜索关键词电脑输入到文本框中
input_key = browser.find_element_by_id('J_search_key')
input_key.send_keys('电脑')
time.sleep(1)
#通过class属性找到搜索按钮
search_btn = browser.find_element_by_class_name('submit')
time.sleep(1)
#点击搜索按钮
search_btn.click()
time.sleep(1)
#向前一页
browser.back()#向后用forward()
time.sleep(1)
#通过xpath定位到淘宝网首页
home_page = browser.find_element_by_xpath('/html/body/div[1]/div/ul[2]/li[1]/div/a')
time.sleep(1)
#点击返回至淘宝网首页
home_page.click()
'''我们还可以判断某个标签的状态'''
tianmao = browser.find_element_by_xpath('/html/body/div[3]/div/ul[1]/li[1]/a')
print(tianmao.get_attribute('href'))#获取天猫的href属性
print(tianmao.is_selected())#查看天猫是否被选中
print(tianmao.is_displayed())#查看天猫是否显示
print(tianmao.is_enabled())#查看天猫是否可用
print(tianmao.text)#获取天猫的文本
print(tianmao.tag_name)#获取天猫的标签名称
print(tianmao.size)#获取天猫的大小
print(tianmao.location)#获取天猫的位置坐标
time.sleep(1)
clothes = browser.find_element_by_css_selector('li.J_Cat:nth-child(1) > a:nth-child(1)')
clothes.click()
time.sleep(3)
browser.quit()#关闭浏览器

代码运行后，会一步一步控制浏览器，打印的结果如下图

结果为选中标签的各类信息

下面附上上述代码运行后，自动化控制浏览器的视频

seleium基本使用

进击的小叶

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫seleium模块基本操作

seleium是python中浏览器驱动模块，也是一个第三方库，在网络爬虫中，使用requests模块访问网站时，常常会遇到各种反爬措施，而seleium的出现可以模拟用户进行浏览器操作，能够看到正常用户使用浏览器的数据。使用seleium模块和requests不同，并不是直接import一下就好，它需要用户下载浏览器驱动程序，谷歌浏览器就下载 chromedriver 火狐浏览器就下载geckodriver，以下两篇文章可以学到方法，这里不作为重点谷歌：https://blog.csdn.n...
复制链接

扫一扫