最近发现了一个Tampermonkey脚本,用来下载百度网盘能达到几十MB/s,然而不能批量下载(比如几十集的电视剧),于是借用爬虫知识,利用Python+Selenium批量调用此脚本获得直链,并在IDM里进行批量下载。
注意:文中的一些步骤需要一定的技术知识。
准备文件
- Python环境
- Chrome相关,即Chrome以及chromedriver配置(参考网上教程)
- Tampermonkey插件 (提取码: ptfb)
- IDM(参考网上教程,需要设置为4线程,用户代理为:netdisk;7.0.3.2;PC;PC-Windows;10.0.17763)
相关代码
其实这里完全可以不用Selenium,在浏览器控制台中执行JavaScript脚本会更加方便,只是偶尔用用,懒得去研究了。
启动时加载Tampermonkey插件
自动加载Tampermonkey插件,只需要在创建driver对象时为options指定插件路径即可,这里将代码和插件放在同一文件夹下
driver_path = './Chrome/Application/chromedriver.exe'
driver_path = os.path.realpath(driver_path)
chrome_path = './Chrome/Application/chrome.exe'
chrome_path = os.path.realpath(chrome_path)
options = Options()
options.binary_location = chrome_path
options.add_extension('tampermonkey v4.14.6147.crx')
driver = Chrome(service=Service(driver_path), options=options)
这里指定了Chrome和chromedriver的位置,如果使用电脑上安装的Chrome并配置了环境变量,则可用如下代码替换
options = Options()
options.add_extension('tampermonkey v4.14.6147.crx')
driver = Chrome(options=options)
自动安装直链获取脚本
其实这一步可以用加载用户配置文件来替代,而且速度更快,但是懒得研究了,直接去脚本网址安装即可
driver.get(
'https://greasyfork.org/zh-CN/scripts/418182-%E7%99%BE%E5%BA%A6%E7%BD%91%E7%9B%98%E7%AE%80%E6%98%93%E4%B8%8B%E8%BD%BD%E5%8A%A9%E6%89%8B-%E7%9B%B4%E9%93%BE%E4%B8%8B%E8%BD%BD%E5%A4%8D%E6%B4%BB%E7%89%88')
driver.find_element(By.XPATH, '//*[@id="install-area"]/a').click()
WebDriverWait(driver, 30).until(
EC.element_to_be_clickable((By.XPATH, '//*[@id="preinstall-modal"]/div/div/footer/button[2]'))).click()
while len(driver.window_handles) == 1:
pass
driver.switch_to.window(driver.window_handles[-1])
WebDriverWait(driver, 30).until(EC.element_to_be_clickable(
(By.XPATH, '/html/body/div[2]/div[2]/div/table/tr[2]/td/div/div/div/div[2]/div/div/input[1]'))).click()
driver.switch_to.window(driver.window_handles[0])
百度网盘操作
这部分代码会调用直链脚本,获取当前网盘页面文件夹下的所有文件的直链。
代码执行到这里时会暂停,等待用户登录并打开需要获取直链的界面,打开页面后返回代码运行窗口并点击回车继续运行(懒得写自动化了)。
注意当前界面的文件中不能包含文件夹,否则代码会报错,因为没有写针对文件夹的处理,第一次使用时可能会要求输入验证码,按弹出界面要求操作即可。
执行完毕后会在当前文件夹生成一个包含所有链接的txt文件。
driver.get('https://pan.baidu.com/disk/main?from=homeFlow#/index?category=all')
while True:
input('按回车键开始')
name = driver.find_element(By.XPATH,
'/html/body/div[1]/div[2]/div[2]/div/div[2]/div[1]/div/span[last()-0]/span[1]').text
checkboxs = driver.find_elements(By.XPATH,
'/html/body/div[1]/div[2]/div[2]/div/div[3]/div/div[2]/table/tbody/tr/td[1]/label/span/span')
links = []
for i in range(len(checkboxs)):
if i > 0:
checkboxs[i - 1].click()
checkboxs[i].click()
time.sleep(0.1)
driver.find_element(By.XPATH, '//*[@id="btnEasyHelper"]/button').click()
time.sleep(0.2)
driver.find_element(By.ID, 'dialogBtnGetUrl').click()
while True:
try:
link = driver.find_element(By.ID, 'dialogBtnIdm').get_attribute('data-clipboard-text')
if link != '':
print(link)
links.append(link)
break
except:
pass
try:
driver.find_element(By.XPATH,
'/html/body/div[@class="swal-overlay swal-overlay--show-modal"]/div/div[2]/div/button').click()
except:
input('关闭界面出错,请手动处理后按回车继续')
with open(name + '.txt', 'w', encoding='utf-8') as f:
for link in links:
f.write(link)
f.write('\n\n')
完整代码
import time
import os
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.chrome.options import Options
driver_path = './Chrome/Application/chromedriver.exe'
driver_path = os.path.realpath(driver_path)
chrome_path = './Chrome/Application/chrome.exe'
chrome_path = os.path.realpath(chrome_path)
options = Options()
options.binary_location = chrome_path
options.add_extension('tampermonkey v4.14.6147.crx')
driver = Chrome(service=Service(driver_path), options=options)
time.sleep(7) # 等待第二个窗口打开
if len(driver.window_handles) > 1:
driver.switch_to.window(driver.window_handles[-1])
driver.close()
driver.switch_to.window(driver.window_handles[0])
# 安装脚本
print('安装脚本')
driver.get(
'https://greasyfork.org/zh-CN/scripts/418182-%E7%99%BE%E5%BA%A6%E7%BD%91%E7%9B%98%E7%AE%80%E6%98%93%E4%B8%8B%E8%BD%BD%E5%8A%A9%E6%89%8B-%E7%9B%B4%E9%93%BE%E4%B8%8B%E8%BD%BD%E5%A4%8D%E6%B4%BB%E7%89%88')
driver.find_element(By.XPATH, '//*[@id="install-area"]/a').click()
WebDriverWait(driver, 30).until(
EC.element_to_be_clickable((By.XPATH, '//*[@id="preinstall-modal"]/div/div/footer/button[2]'))).click()
while len(driver.window_handles) == 1:
pass
driver.switch_to.window(driver.window_handles[-1])
WebDriverWait(driver, 30).until(EC.element_to_be_clickable(
(By.XPATH, '/html/body/div[2]/div[2]/div/table/tr[2]/td/div/div/div/div[2]/div/div/input[1]'))).click()
driver.switch_to.window(driver.window_handles[0])
# 进入度盘
driver.get('https://pan.baidu.com/disk/main?from=homeFlow#/index?category=all')
while True:
input('按回车键开始')
name = driver.find_element(By.XPATH,
'/html/body/div[1]/div[2]/div[2]/div/div[2]/div[1]/div/span[last()-0]/span[1]').text
checkboxs = driver.find_elements(By.XPATH,
'/html/body/div[1]/div[2]/div[2]/div/div[3]/div/div[2]/table/tbody/tr/td[1]/label/span/span')
links = []
for i in range(len(checkboxs)):
if i > 0:
checkboxs[i - 1].click()
checkboxs[i].click()
time.sleep(0.1)
driver.find_element(By.XPATH, '//*[@id="btnEasyHelper"]/button').click()
time.sleep(0.2)
driver.find_element(By.ID, 'dialogBtnGetUrl').click()
while True:
try:
link = driver.find_element(By.ID, 'dialogBtnIdm').get_attribute('data-clipboard-text')
if link != '':
print(link)
links.append(link)
break
except:
pass
try:
driver.find_element(By.XPATH,
'/html/body/div[@class="swal-overlay swal-overlay--show-modal"]/div/div[2]/div/button').click()
except:
input('关闭界面出错,请手动处理后按回车继续')
print(f"输出文件:{name + '.txt'}")
with open(name + '.txt', 'w', encoding='utf-8') as f:
for link in links:
f.write(link)
f.write('\n\n')
IDM下载
这里使用IDM导入txt文件进行批量下载,具体操作如下
- 点击 任务-导入-从文本文件导入
- 弹出窗口中选择刚刚生成的txt文件
- 全部选择并确定
- 如果出现如下界面,按图中选择并确定
- 下载完成后文件应该在电脑的“下载”文件夹中
写在最后
文中代码仅供学习和交流,如果部分内容涉及到侵权,请联系我删除。