【Python】Python+IDM实现百度网盘批量下载

@苏丶

已于 2022-12-29 18:59:01 修改

阅读量9.7k

点赞数 4

分类专栏： Python 经验分享文章标签： python 百度云 chrome

于 2022-02-06 00:37:41 首次发布

本文链接：https://blog.csdn.net/weixin_42147967/article/details/122795046

版权

经验分享同时被 2 个专栏收录

27 篇文章 2 订阅

订阅专栏

Python

25 篇文章 9 订阅

订阅专栏

最近发现了一个Tampermonkey脚本，用来下载百度网盘能达到几十MB/s，然而不能批量下载（比如几十集的电视剧），于是借用爬虫知识，利用Python+Selenium批量调用此脚本获得直链，并在IDM里进行批量下载。

注意：文中的一些步骤需要一定的技术知识。

准备文件

Python环境
Chrome相关，即Chrome以及chromedriver配置（参考网上教程）
Tampermonkey插件（提取码: ptfb）
IDM（参考网上教程，需要设置为4线程，用户代理为：netdisk;7.0.3.2;PC;PC-Windows;10.0.17763）

相关代码

其实这里完全可以不用Selenium，在浏览器控制台中执行JavaScript脚本会更加方便，只是偶尔用用，懒得去研究了。

启动时加载Tampermonkey插件

自动加载Tampermonkey插件，只需要在创建driver对象时为options指定插件路径即可，这里将代码和插件放在同一文件夹下

driver_path = './Chrome/Application/chromedriver.exe'
driver_path = os.path.realpath(driver_path)
chrome_path = './Chrome/Application/chrome.exe'
chrome_path = os.path.realpath(chrome_path)
options = Options()
options.binary_location = chrome_path
options.add_extension('tampermonkey v4.14.6147.crx')
driver = Chrome(service=Service(driver_path), options=options)

这里指定了Chrome和chromedriver的位置，如果使用电脑上安装的Chrome并配置了环境变量，则可用如下代码替换

options = Options()
options.add_extension('tampermonkey v4.14.6147.crx')
driver = Chrome(options=options)

自动安装直链获取脚本

其实这一步可以用加载用户配置文件来替代，而且速度更快，但是懒得研究了，直接去脚本网址安装即可

driver.get(
    'https://greasyfork.org/zh-CN/scripts/418182-%E7%99%BE%E5%BA%A6%E7%BD%91%E7%9B%98%E7%AE%80%E6%98%93%E4%B8%8B%E8%BD%BD%E5%8A%A9%E6%89%8B-%E7%9B%B4%E9%93%BE%E4%B8%8B%E8%BD%BD%E5%A4%8D%E6%B4%BB%E7%89%88')
driver.find_element(By.XPATH, '//*[@id="install-area"]/a').click()
WebDriverWait(driver, 30).until(
    EC.element_to_be_clickable((By.XPATH, '//*[@id="preinstall-modal"]/div/div/footer/button[2]'))).click()
while len(driver.window_handles) == 1:
    pass
driver.switch_to.window(driver.window_handles[-1])
WebDriverWait(driver, 30).until(EC.element_to_be_clickable(
    (By.XPATH, '/html/body/div[2]/div[2]/div/table/tr[2]/td/div/div/div/div[2]/div/div/input[1]'))).click()
driver.switch_to.window(driver.window_handles[0])

百度网盘操作

这部分代码会调用直链脚本，获取当前网盘页面文件夹下的所有文件的直链。

代码执行到这里时会暂停，等待用户登录并打开需要获取直链的界面，打开页面后返回代码运行窗口并点击回车继续运行（懒得写自动化了）。

注意当前界面的文件中不能包含文件夹，否则代码会报错，因为没有写针对文件夹的处理，第一次使用时可能会要求输入验证码，按弹出界面要求操作即可。

执行完毕后会在当前文件夹生成一个包含所有链接的txt文件。

driver.get('https://pan.baidu.com/disk/main?from=homeFlow#/index?category=all')
while True:
    input('按回车键开始')
    name = driver.find_element(By.XPATH,
                               '/html/body/div[1]/div[2]/div[2]/div/div[2]/div[1]/div/span[last()-0]/span[1]').text
    checkboxs = driver.find_elements(By.XPATH,
                                     '/html/body/div[1]/div[2]/div[2]/div/div[3]/div/div[2]/table/tbody/tr/td[1]/label/span/span')
    links = []
    for i in range(len(checkboxs)):
        if i > 0:
            checkboxs[i - 1].click()
        checkboxs[i].click()
        time.sleep(0.1)
        driver.find_element(By.XPATH, '//*[@id="btnEasyHelper"]/button').click()
        time.sleep(0.2)
        driver.find_element(By.ID, 'dialogBtnGetUrl').click()
        while True:
            try:
                link = driver.find_element(By.ID, 'dialogBtnIdm').get_attribute('data-clipboard-text')
                if link != '':
                    print(link)
                    links.append(link)
                    break
            except:
                pass
        try:
            driver.find_element(By.XPATH,
                                '/html/body/div[@class="swal-overlay swal-overlay--show-modal"]/div/div[2]/div/button').click()
        except:
            input('关闭界面出错，请手动处理后按回车继续')
    with open(name + '.txt', 'w', encoding='utf-8') as f:
        for link in links:
            f.write(link)
            f.write('\n\n')

完整代码

import time
import os
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.chrome.options import Options

driver_path = './Chrome/Application/chromedriver.exe'
driver_path = os.path.realpath(driver_path)
chrome_path = './Chrome/Application/chrome.exe'
chrome_path = os.path.realpath(chrome_path)
options = Options()
options.binary_location = chrome_path
options.add_extension('tampermonkey v4.14.6147.crx')
driver = Chrome(service=Service(driver_path), options=options)
time.sleep(7)  # 等待第二个窗口打开
if len(driver.window_handles) > 1:
    driver.switch_to.window(driver.window_handles[-1])
    driver.close()
    driver.switch_to.window(driver.window_handles[0])
# 安装脚本
print('安装脚本')
driver.get(
    'https://greasyfork.org/zh-CN/scripts/418182-%E7%99%BE%E5%BA%A6%E7%BD%91%E7%9B%98%E7%AE%80%E6%98%93%E4%B8%8B%E8%BD%BD%E5%8A%A9%E6%89%8B-%E7%9B%B4%E9%93%BE%E4%B8%8B%E8%BD%BD%E5%A4%8D%E6%B4%BB%E7%89%88')
driver.find_element(By.XPATH, '//*[@id="install-area"]/a').click()
WebDriverWait(driver, 30).until(
    EC.element_to_be_clickable((By.XPATH, '//*[@id="preinstall-modal"]/div/div/footer/button[2]'))).click()
while len(driver.window_handles) == 1:
    pass
driver.switch_to.window(driver.window_handles[-1])
WebDriverWait(driver, 30).until(EC.element_to_be_clickable(
    (By.XPATH, '/html/body/div[2]/div[2]/div/table/tr[2]/td/div/div/div/div[2]/div/div/input[1]'))).click()
driver.switch_to.window(driver.window_handles[0])
# 进入度盘
driver.get('https://pan.baidu.com/disk/main?from=homeFlow#/index?category=all')
while True:
    input('按回车键开始')
    name = driver.find_element(By.XPATH,
                               '/html/body/div[1]/div[2]/div[2]/div/div[2]/div[1]/div/span[last()-0]/span[1]').text
    checkboxs = driver.find_elements(By.XPATH,
                                     '/html/body/div[1]/div[2]/div[2]/div/div[3]/div/div[2]/table/tbody/tr/td[1]/label/span/span')
    links = []
    for i in range(len(checkboxs)):
        if i > 0:
            checkboxs[i - 1].click()
        checkboxs[i].click()
        time.sleep(0.1)
        driver.find_element(By.XPATH, '//*[@id="btnEasyHelper"]/button').click()
        time.sleep(0.2)
        driver.find_element(By.ID, 'dialogBtnGetUrl').click()
        while True:
            try:
                link = driver.find_element(By.ID, 'dialogBtnIdm').get_attribute('data-clipboard-text')
                if link != '':
                    print(link)
                    links.append(link)
                    break
            except:
                pass
        try:
            driver.find_element(By.XPATH,
                                '/html/body/div[@class="swal-overlay swal-overlay--show-modal"]/div/div[2]/div/button').click()
        except:
            input('关闭界面出错，请手动处理后按回车继续')
    print(f"输出文件：{name + '.txt'}")
    with open(name + '.txt', 'w', encoding='utf-8') as f:
        for link in links:
            f.write(link)
            f.write('\n\n')