Python爬虫之Selenium

Tivibra

已于 2024-03-16 13:35:46 修改

阅读量610

点赞数 3

文章标签： python 爬虫 selenium

于 2024-03-14 18:40:07 首次发布

本文链接：https://blog.csdn.net/Zombie166/article/details/136715000

版权

学selenium原因：

Selenium 测试直接运行在浏览器，就像真正的用户在操作一样。有些网站会检测到用户在爬取信息，所以会做一些反爬，导致有些数据无法获取，而Selenium会避免这些情况

下载安装：

Chrome for Testing availability (googlechromelabs.github.io)

这里可以找到谷歌驱动，在浏览器左上角-->设置-->关于google 中可以查看Google版本信息，下载对应的驱动（别看错对应系统）

解压之后吧exe文件放在Python项目目录下（移动拖拽就好）

edge浏览器驱动下载地址：Microsoft Edge WebDriver | Microsoft Edge Developer

流程一样，只是引用代码变了，这里先以Chrome为例

在pycharm解释器中搜索Selenium下载安装

检查是否导入成功：

from selenium import webdriver

Selenium基本使用

from selenium import webdriver

browser = webdriver.Chrome()

# 访问网站
url = 'https://www.baidu.com'

browser.get(url)

input()# 加这个是因为有时候进入网站后会闪退，加上就可以不闪退了

这样就可以进入百度

Selenium元素定位

模拟鼠标和键盘来操作这些元素，点击，输入等等。操作元素前首先要找到定位他们

我们要定位百度里的‘百度一下’一栏

from selenium import webdriver

browser = webdriver.Chrome()

url = 'https://www.baidu.com'

browser.get(url)

# 元素定位
# 1.根据id来找到对象   ****
button = browser.find_element('id','su')
print(button)

# 根据标签属性的属性值获取对象
button = browser.find_element('name','wd')
print(button)

# 根据xpath来找到对象  ****
button = browser.find_element('xpath','//*[@id="kw"]')
print(button)

# 根据标签名字获取对象
button = browser.find_elements('tag_name','input')
print(button)

# 使用bs4的语法获取对象  ***
button = browser.find_element('css_selector','#wd"]')
print(button)

# 根据名称获取链接
button = browser.find_element('link_text','新闻')
print(button)

input()

获取元素信息

from selenium import webdriver

browser = webdriver.Chrome()

url = 'https://www.baidu.com'

browser.get(url)

input = browser.find_element('id','su')
# 获取标签属性
print(input.get_attribute('class'))
# 获取标签名称
print(input.tag_name)
# 获取元素之间的文本
print(input.text)# 这里没内容，因为这里的元素之间没有文本

交互

from selenium import webdriver

browser = webdriver.Chrome()

url = 'https://www.baidu.com'

browser.get(url)

import time
time.sleep(2)

# 获取文本框的对象
input = browser.find_element('id','kw')

# 在文本框中输入想要搜索的内容
input.send_keys('周杰伦')

time.sleep(2)

# 获取百度一下的按钮
button = browser.find_element('id','su')

# 点击按钮
button.click()

time.sleep(2)

# 滑到底部
bottom = 'document.documentElement.scrollTop=100000'
browser.execute_script(bottom)

time.sleep(2)

# 获取下一页信息
next = browser.find_element('xpath','//*[@class="n"]')
next.click()

time.sleep(2)
# 回到上一页
browser.back()

time.sleep(2)

browser.forward()

time.sleep(3)

browser.quit()

这样就是一个简易的脚本实现了，可以自动完成我们希望他完成的事

Chrome handless

可以让你不打开UI界面的情况下使用Chrome，运行效果和Chrome你完全一致，性能更高

通用代码：

# 导入 selenium
from selenium import webdriver
# 如果需要指定路径，但是路径在新版本中被重构到 Service 函数中了
from selenium.webdriver.chrome.service import Service
# 配置对象
from selenium.webdriver.chrome.options import Options
# 导入常量对象（可以点进去看看，其实也可以手写）
# from selenium.webdriver.common.by import By
# 导入 定时器
from time import sleep

# 浏览器封装
def share_browser ():
  # 浏览器驱动路径（可以是下载的驱动，也可以直接使用电脑上 Chrome 浏览器的驱动，找到路径就行）
  path = 'chromedriver.exe'

  # 配置对象
  options = Options()
  # options = webdriver.ChromeOptions() # 也可以这样创建 options 对象
  # options.add_experimental_option('detach', True) # 不自动关闭浏览器
  options.add_argument('--headless') # 设置无窗口模式
  options.add_argument('--disable-gpu') # 禁用gpu加速

  # 创建浏览器
  service = Service(path)
  browser = webdriver.Chrome(service=service, options=options)
  # 返回
  return browser

剩下的代码和普通Selenium一致

# 创建浏览器
browser = share_browser()

# 打开指定网址
browser.get('https://www.baidu.com')

# 保存快照
browser.save_screenshot('baidu.png')

# 睡眠
sleep(2)

# 退出
# browser.quit()

就可以得到打开百度的图片了