学selenium原因:
- Selenium 测试直接运行在浏览器,就像真正的用户在操作一样。有些网站会检测到用户在爬取信息,所以会做一些反爬,导致有些数据无法获取,而Selenium会避免这些情况
下载安装:
Chrome for Testing availability (googlechromelabs.github.io)
这里可以找到谷歌驱动,在 浏览器左上角-->设置-->关于google 中可以查看Google版本信息,下载对应的驱动(别看错对应系统)
解压之后吧exe文件放在Python项目目录下(移动拖拽就好)
edge浏览器驱动下载地址:Microsoft Edge WebDriver | Microsoft Edge Developer
流程一样,只是引用代码变了,这里先以Chrome为例
在pycharm解释器中搜索Selenium下载安装
检查是否导入成功:
from selenium import webdriver
Selenium基本使用
from selenium import webdriver
browser = webdriver.Chrome()
# 访问网站
url = 'https://www.baidu.com'
browser.get(url)
input()# 加这个是因为有时候进入网站后会闪退,加上就可以不闪退了
这样就可以进入百度
Selenium元素定位
模拟鼠标和键盘来操作这些元素,点击,输入等等。操作元素前首先要找到定位他们
我们要定位 百度 里的‘百度一下’一栏
from selenium import webdriver
browser = webdriver.Chrome()
url = 'https://www.baidu.com'
browser.get(url)
# 元素定位
# 1.根据id来找到对象 ****
button = browser.find_element('id','su')
print(button)
# 根据标签属性的属性值获取对象
button = browser.find_element('name','wd')
print(button)
# 根据xpath来找到对象 ****
button = browser.find_element('xpath','//*[@id="kw"]')
print(button)
# 根据标签名字获取对象
button = browser.find_elements('tag_name','input')
print(button)
# 使用bs4的语法获取对象 ***
button = browser.find_element('css_selector','#wd"]')
print(button)
# 根据名称获取链接
button = browser.find_element('link_text','新闻')
print(button)
input()
获取元素信息
from selenium import webdriver
browser = webdriver.Chrome()
url = 'https://www.baidu.com'
browser.get(url)
input = browser.find_element('id','su')
# 获取标签属性
print(input.get_attribute('class'))
# 获取标签名称
print(input.tag_name)
# 获取元素之间的文本
print(input.text)# 这里没内容,因为这里的元素之间没有文本
交互
from selenium import webdriver
browser = webdriver.Chrome()
url = 'https://www.baidu.com'
browser.get(url)
import time
time.sleep(2)
# 获取文本框的对象
input = browser.find_element('id','kw')
# 在文本框中输入想要搜索的内容
input.send_keys('周杰伦')
time.sleep(2)
# 获取百度一下的按钮
button = browser.find_element('id','su')
# 点击按钮
button.click()
time.sleep(2)
# 滑到底部
bottom = 'document.documentElement.scrollTop=100000'
browser.execute_script(bottom)
time.sleep(2)
# 获取下一页信息
next = browser.find_element('xpath','//*[@class="n"]')
next.click()
time.sleep(2)
# 回到上一页
browser.back()
time.sleep(2)
browser.forward()
time.sleep(3)
browser.quit()
这样就是一个简易的脚本实现了,可以自动完成我们希望他完成的事
Chrome handless
可以让你不打开UI界面的情况下使用Chrome,运行效果和Chrome你完全一致,性能更高
通用代码:
# 导入 selenium
from selenium import webdriver
# 如果需要指定路径,但是路径在新版本中被重构到 Service 函数中了
from selenium.webdriver.chrome.service import Service
# 配置对象
from selenium.webdriver.chrome.options import Options
# 导入常量对象(可以点进去看看,其实也可以手写)
# from selenium.webdriver.common.by import By
# 导入 定时器
from time import sleep
# 浏览器封装
def share_browser ():
# 浏览器驱动路径(可以是下载的驱动,也可以直接使用电脑上 Chrome 浏览器的驱动,找到路径就行)
path = 'chromedriver.exe'
# 配置对象
options = Options()
# options = webdriver.ChromeOptions() # 也可以这样创建 options 对象
# options.add_experimental_option('detach', True) # 不自动关闭浏览器
options.add_argument('--headless') # 设置无窗口模式
options.add_argument('--disable-gpu') # 禁用gpu加速
# 创建浏览器
service = Service(path)
browser = webdriver.Chrome(service=service, options=options)
# 返回
return browser
剩下的代码和普通Selenium一致
# 创建浏览器
browser = share_browser()
# 打开指定网址
browser.get('https://www.baidu.com')
# 保存快照
browser.save_screenshot('baidu.png')
# 睡眠
sleep(2)
# 退出
# browser.quit()
就可以得到打开百度的图片了