selenium爬虫


之前爬取Iwara上的视频的时候,由于视频源地址是动态加载出来的,所以学习了一下selenium,之后又忘了,故作斯文。

个人对selenium的理解

私以为:
selenium相比于普通用requests去爬取网页数据的区别在于,它真正调用了电脑上安装的浏览器应用程序,所以能够更加真实地模拟人类对于网页的操作,也能够爬取动态加载网页中的数据,就像是安排了一个工具人一个一个来帮你下载网页上的数据。它虽然功能强大易于上手,但是资源消耗大,效率低,更多用于测试以及像我这样刚刚入门爬虫的人使用,真正的高手是不会用这个的。

selenium的使用

selenium官网:

https://www.selenium.dev/

需要在网页下载webdriver/浏览器驱动
在官网的下载中找到你使用的浏览器的驱动下载网页,比如说Chrome的驱动下载地址是:

https://sites.google.com/a/chromium.org/chromedriver/

下载解压会有一个名叫“chromedriver.exe”的应用程序,记住它的位置
在python中安装selenium模块:

pip install selenium

接下来就可以使用selenium了:
导入selenium模块:

from selenium import webdriver

导入一些实用的功能:

from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait

创建并打开Chrome浏览器:

chrome = webdriver.Chrome(executable_path='C:/pycharm/chromedriver.exe')
chrome.get(web_url)

其中executable_path就是之前记住的文件位置,chrome就代表了创建的浏览器对象
比较实用的功能:
设定浏览器窗口大小:

chrome.set_window_size(900, 500)

浏览器后退&前进

chrome.back()
chrome.forward()

浏览器刷新

chrome.refresh()

等待元素出现:

WebDriverWait(chrome, 30).until(EC.presence_of_element_located((By.XPATH, '//video')))

用XPath查找第一个出现的元素:

chrome.find_element_by_xpath('//a[@class="username"]')

用XPath查找所有元素,返回一个list:

chrome.find_elements_by_xpath('//a[@class="username"]')

查找一个元素的属性:

element.get_attribute('href')

导出cookie:

chrome.get_cookies()

加载cookie:

chrome.add_cookie(cookie)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值