selenium页面爬取

最新推荐文章于 2024-05-18 19:39:35 发布

风走茶未凉

最新推荐文章于 2024-05-18 19:39:35 发布

阅读量183

点赞数 1

分类专栏： # 爬虫文章标签： selenium python 测试工具

本文链接：https://blog.csdn.net/m0_63276919/article/details/131744389

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Selenium是一个用于Web应用程序测试的自动化工具，它能在浏览器中运行，支持多种浏览器。主要用途是解决JavaScript渲染问题，常用于爬虫以模拟真实用户行为，执行动态加载。安装Selenium后，可通过元素定位方法如id、name、xpath等找到并操作网页元素，进行点击、输入等交互。此外，Selenium还支持无头模式（headless）进行无界面访问。

摘要由CSDN通过智能技术生成

Selenium

selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器在爬虫中的应用主要是用来解决JS渲染的问题。用于Web应用程序测试的工具，直接运行在浏览器中，像真正的用户一样操作，支持通过各种Driver驱动真实浏览器完成测试。像是一个网页测试。

在我们使用urllib时模拟浏览器访问时，会被浏览器识别，导致返回的数据有所缺失，故我们可以使用selenium做爬虫
模拟浏览器功能，自动执行网页中的js代码，实现动态加载

安装selenium库

pip install selenium==3.141.0
这时要注意会出现两种错误，一种提示你的selenium的版本过底或者是urllib的版本过低
pip install urllib3==1.26.15
提示urllib版本过低执行上面这句

使用步骤：注意先将chromedriver.exe文件导入py文件夹下

# 1. 导入selenium
from selenium import webdriver

# 2. 创建浏览器操作对象
path = 'chromedriver.exe'
browser = webdriver.Chrome(path)

# 3. 访问网站
url = 'https://www.baidu.com'
browser.get(url)
# 获取网页源码
content = browser.page_source

元素定位

元素定位：模拟鼠标和键盘来操作这些元素，点击、输入等，WebDriver提供了很多定位元素的方法
方法：	(新方法，下面的旧方法过时)
	button = browser.find_element(By.TAG_NAME,'input')
		例子:browser.find_element('id','su') 找到属性id为su的元素

# (1) 根据id属性的属性值找到对象_重要：
 
button = browser.find_element_by_id('su')
 
print(button)
 
# (2) 根据name属性的属性值找到对象：
 
button = browser.find_element_by_name('wd')
 
print(button)
 
# (3) 根据xpath的语句找到对象_重要：
 
button = browser.find_element_by_xpath('//input[@id = "su"]')
 
print(button)
 
# (4) 根据标签的名称找到对象
 
button = browser.find_element_by_tag_name('input')
 
print(button)
 
# (5) 根据CSS选择器找到对象，相当于bs4的语法_重要：
 
button = browser.find_element_by_css_selector('#su')
 
# (6) 根据链接元素查找对象：
 
button = browser.find_element_by_link_text('新闻')

通过元素定位可以获得相应的元素，类似于选择处理。

访问元素信息

# 新版本的爬虫
from selenium.webdriver.chrome.webdriver import Service 
service = Service('chromedriver.exe')

获取元素属性
	.get_attribute('class')
获取元素文本
	.text
获取标签名
	.tag_name

交互

点击:click()
输入:send_keys()
后退操作:browser.back()
前进操作:browser.forward()
模拟JS滚动:
	js='document.documentElement.scrollTop=100000'
	browser.execute_script(js) #执行js代码
获取网页代码:browser.page_source
退出:browser.quit()

每次测试花费时间较长，不方便处理，js渲染等待时间长

例子：搜索火影忍者点击下一页

from selenium import webdriver
import time

url = 'https://www.baidu.com/'
path = 'chromedriver.exe'
browser = webdriver.Chrome(path)
# 打开浏览器
browser.get(url)
input = browser.find_element('id','kw')
input.send_keys('火影忍者')
time.sleep(2)
button = browser.find_element('id','su')
button.click()
time.sleep(2)
# 翻到下一页
js_button = "document.documentElement.scrollTop=100000"
browser.execute_script(js_button)
time.sleep(2)
# 下一页按钮
button2 = browser.find_element_by_xpath('//a[@class="n"]')
button2.click()
time.sleep(2)
browser.back()
time.sleep(2)
browser.forward()
time.sleep(2)
browser.quit()

handless

handless不会像selenium进行js渲染，只会进行无界面访问，可调用browser.save_screenshot()进行页面拍照进行查看。

selenium_无界面模拟浏览器操作学习之handless的学习

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

chrome_options = Options()

chrome_options.add_argument('--headless')

chrome_options.add_argument('--disable-gpu')

path这里要改成自己的谷歌浏览器的路径：

path = r'C:\Program Files (x86)\Google\Chrome\Application\chrome.exe'

chrome_options.binary_location = path

browser = webdriver.Chrome(chrome_options = chrome_options)

以上代码固定可直接使用，也可以封装后方便使用。

风走茶未凉

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
selenium页面爬取

selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器在爬虫中的应用主要是用来解决JS渲染的问题。用于Web应用程序测试的工具，直接运行在浏览器中，像真正的用户一样操作，支持通过各种Driver驱动真实浏览器完成测试。像是一个网页测试。通过元素定位可以获得相应的元素，类似于选择处理。每次测试花费时间较长，不方便处理，js渲染等待时间长例子：搜索火影忍者点击下一页。
复制链接

扫一扫

专栏目录