selenium爬虫
之前爬取Iwara上的视频的时候,由于视频源地址是动态加载出来的,所以学习了一下selenium,之后又忘了,故作斯文。
个人对selenium的理解
私以为:
selenium相比于普通用requests去爬取网页数据的区别在于,它真正调用了电脑上安装的浏览器应用程序,所以能够更加真实地模拟人类对于网页的操作,也能够爬取动态加载网页中的数据,就像是安排了一个工具人一个一个来帮你下载网页上的数据。它虽然功能强大易于上手,但是资源消耗大,效率低,更多用于测试以及像我这样刚刚入门爬虫的人使用,真正的高手是不会用这个的。
selenium的使用
selenium官网:
https://www.selenium.dev/
需要在网页下载webdriver/浏览器驱动
在官网的下载中找到你使用的浏览器的驱动下载网页,比如说Chrome的驱动下载地址是:
https://sites.google.com/a/chromium.org/chromedriver/
下载解压会有一个名叫“chromedriver.exe”的应用程序,记住它的位置
在python中安装selenium模块:
pip install selenium
接下来就可以使用selenium了:
导入selenium模块:
from selenium import webdriver
导入一些实用的功能:
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
创建并打开Chrome浏览器:
chrome = webdriver.Chrome(executable_path='C:/pycharm/chromedriver.exe')
chrome.get(web_url)
其中executable_path就是之前记住的文件位置,chrome就代表了创建的浏览器对象
比较实用的功能:
设定浏览器窗口大小:
chrome.set_window_size(900, 500)
浏览器后退&前进
chrome.back()
chrome.forward()
浏览器刷新
chrome.refresh()
等待元素出现:
WebDriverWait(chrome, 30).until(EC.presence_of_element_located((By.XPATH, '//video')))
用XPath查找第一个出现的元素:
chrome.find_element_by_xpath('//a[@class="username"]')
用XPath查找所有元素,返回一个list:
chrome.find_elements_by_xpath('//a[@class="username"]')
查找一个元素的属性:
element.get_attribute('href')
导出cookie:
chrome.get_cookies()
加载cookie:
chrome.add_cookie(cookie)