使用selenium进行网页爬取

最新推荐文章于 2024-08-13 20:32:54 发布

slibra_L

最新推荐文章于 2024-08-13 20:32:54 发布

阅读量1.2k

点赞数

分类专栏：网络爬虫文章标签： python selenium

本文链接：https://blog.csdn.net/slibra_l/article/details/106982992

版权

网络爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

有些网站的反爬机制极强，需要更真实的去模拟人访问网站的动作才可以爬取信息，这时就需要selenium

一、selenium是什么

selenium是什么呢？它是一个强大的Python库。

它可以做什么呢？它可以用几行代码，控制浏览器，做出自动打开、输入、点击等操作，就像是有一个真正的用户在操作一样。

二、驱动下载

首先需要安装浏览器驱动，下载驱动后将exe文件复制到python根目录下（虚拟环境根目录也可以）

ChromeDriver与Chrome版本对应参照表及ChromeDriver下载链接

使用pip安装selenium

三、爬取信息

# 本地Chrome浏览器设置方法
from selenium import webdriver # 从selenium库中调用webdriver模块
import time # 调用time模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器

driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 访问页面
time.sleep(2) # 暂停两秒，等待浏览器缓冲

teacher = driver.find_element_by_id('teacher') # 找到【请输入你喜欢的老师】下面的输入框位置
teacher.send_keys('必须是吴枫呀') # 输入文字
assistant = driver.find_element_by_name('assistant') # 找到【请输入你喜欢的助教】下面的输入框位置
assistant.send_keys('都喜欢') # 输入文字
button = driver.find_element_by_class_name('sub') # 找到【提交】按钮
button.click() # 点击【提交】按钮
time.sleep(1)
driver.close() # 关闭浏览器