Python爬虫之Selenium

学selenium原因:

  • Selenium 测试直接运行在浏览器,就像真正的用户在操作一样。有些网站会检测到用户在爬取信息,所以会做一些反爬,导致有些数据无法获取,而Selenium会避免这些情况

下载安装:

Chrome for Testing availability (googlechromelabs.github.io)

这里可以找到谷歌驱动,在 浏览器左上角-->设置-->关于google  中可以查看Google版本信息,下载对应的驱动(别看错对应系统)

解压之后吧exe文件放在Python项目目录下(移动拖拽就好)

edge浏览器驱动下载地址:Microsoft Edge WebDriver | Microsoft Edge Developer

流程一样,只是引用代码变了,这里先以Chrome为例

在pycharm解释器中搜索Selenium下载安装

检查是否导入成功:

from selenium import webdriver

Selenium基本使用

from selenium import webdriver

browser = webdriver.Chrome()

# 访问网站
url = 'https://www.baidu.com'

browser.get(url)

input()# 加这个是因为有时候进入网站后会闪退,加上就可以不闪退了

这样就可以进入百度

Selenium元素定位

模拟鼠标和键盘来操作这些元素,点击,输入等等。操作元素前首先要找到定位他们

我们要定位 百度 里的‘百度一下’一栏

from selenium import webdriver

browser = webdriver.Chrome()

url = 'https://www.baidu.com'

browser.get(url)

# 元素定位
# 1.根据id来找到对象   ****
button = browser.find_element('id','su')
print(button)

# 根据标签属性的属性值获取对象
button = browser.find_element('name','wd')
print(button)

# 根据xpath来找到对象  ****
button = browser.find_element('xpath','//*[@id="kw"]')
print(button)

# 根据标签名字获取对象
button = browser.find_elements('tag_name','input')
print(button)

# 使用bs4的语法获取对象  ***
button = browser.find_element('css_selector','#wd"]')
print(button)

# 根据名称获取链接
button = browser.find_element('link_text','新闻')
print(button)

input()

获取元素信息

from selenium import webdriver

browser = webdriver.Chrome()

url = 'https://www.baidu.com'

browser.get(url)

input = browser.find_element('id','su')
# 获取标签属性
print(input.get_attribute('class'))
# 获取标签名称
print(input.tag_name)
# 获取元素之间的文本
print(input.text)# 这里没内容,因为这里的元素之间没有文本

交互

from selenium import webdriver

browser = webdriver.Chrome()

url = 'https://www.baidu.com'

browser.get(url)

import time
time.sleep(2)

# 获取文本框的对象
input = browser.find_element('id','kw')

# 在文本框中输入想要搜索的内容
input.send_keys('周杰伦')

time.sleep(2)

# 获取百度一下的按钮
button = browser.find_element('id','su')

# 点击按钮
button.click()

time.sleep(2)

# 滑到底部
bottom = 'document.documentElement.scrollTop=100000'
browser.execute_script(bottom)

time.sleep(2)

# 获取下一页信息
next = browser.find_element('xpath','//*[@class="n"]')
next.click()

time.sleep(2)
# 回到上一页
browser.back()

time.sleep(2)

browser.forward()

time.sleep(3)

browser.quit()

这样就是一个简易的脚本实现了,可以自动完成我们希望他完成的事

Chrome handless

可以让你不打开UI界面的情况下使用Chrome,运行效果和Chrome你完全一致,性能更高

通用代码:

# 导入 selenium
from selenium import webdriver
# 如果需要指定路径,但是路径在新版本中被重构到 Service 函数中了
from selenium.webdriver.chrome.service import Service
# 配置对象
from selenium.webdriver.chrome.options import Options
# 导入常量对象(可以点进去看看,其实也可以手写)
# from selenium.webdriver.common.by import By
# 导入 定时器
from time import sleep

# 浏览器封装
def share_browser ():
  # 浏览器驱动路径(可以是下载的驱动,也可以直接使用电脑上 Chrome 浏览器的驱动,找到路径就行)
  path = 'chromedriver.exe'

  # 配置对象
  options = Options()
  # options = webdriver.ChromeOptions() # 也可以这样创建 options 对象
  # options.add_experimental_option('detach', True) # 不自动关闭浏览器
  options.add_argument('--headless') # 设置无窗口模式
  options.add_argument('--disable-gpu') # 禁用gpu加速

  # 创建浏览器
  service = Service(path)
  browser = webdriver.Chrome(service=service, options=options)
  # 返回
  return browser

剩下的代码和普通Selenium一致

# 创建浏览器
browser = share_browser()

# 打开指定网址
browser.get('https://www.baidu.com')

# 保存快照
browser.save_screenshot('baidu.png')

# 睡眠
sleep(2)

# 退出
# browser.quit()

就可以得到打开百度的图片了

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值