【爬虫】批量下载B站收藏夹视频 - Python

最新推荐文章于 2024-07-13 16:45:18 发布

悟净悟净

最新推荐文章于 2024-07-13 16:45:18 发布

阅读量5.5k

点赞数 4

分类专栏：小工具文章标签： python 爬虫

本文链接：https://blog.csdn.net/cxhnan/article/details/107579804

版权

小工具专栏收录该内容

1 篇文章 0 订阅

订阅专栏

批量下载B站收藏夹视频

起因
开发过程
环境需求
B站API介绍
最终代码

起因

不知道大家在浏览自己的B站收藏夹的时候，有没有遇到这样的情况：自己之前的收藏的视频不见了。

然后，一脸懵逼的对着自己的收藏夹发呆，懊恼自己为啥只收藏不下载，捶胸顿足，后悔万分。

综上所述，处于对视频的惋惜以及希望不要再发生这样的事情。写了一个批量下载B站收藏夹视频的python脚本。

以下讲述整个过程。喜欢直接发车的，请跳转到最终代码。

开发过程

人问：为什么我要重复造轮子呢？下载B站视频的工具那么多？

答曰：是的，下载B站视频的工具确实多。但是（Tempermonkey, Chrome Extension, Github, Baidu, Google）确实没有批量下载 收藏夹 视频的工具。

于是，我开始了思考，如何批量下载收藏夹视频。

首先，我想到的是我正在使用的油猴脚本 Bilibili Evolved. 该脚本自带下载功能。能识别单个视频和番剧，但是收藏夹不行。
然后，我又想到它自带的批量下载功能。但是，这项功能需要输入av号且目前只支持av号。
因此，我想到了通过爬虫批量获取收藏夹中的bv号，在通过算法得出av号。看了B站专栏上用户樱花三味线发布的复杂算法，果断放弃。
开玩笑，是打算按着这个原理，自己写一个转换器的。接下来打开Jupyter otebook，开始尝试通过requests获取收藏夹视频列表及其bv号。
尝试通过登陆后的收藏夹界面获取，失败。因为requests很难模仿b站的登陆。尝试使用Cookie模式登陆，发现不方便。
之后发现，收藏夹中的 播放全部 按钮打开的播单，不需要登录即可访问。
尝试使用requests获取播单的html文件，发现全是js脚本。并没有任何html元素。立马明白了，b站的页面是页面打开之后，再动态加载的。
打开chrome的控制台，刷新界面，通过排查网页发出的请求。发现了b站的获取播放列表信息api。
期间，发现了python写的视频下载工具：you-get。但是，它下载速度并不快（我的电脑不快，但是我另一台电脑，在腾讯和优酷上挺快的）。于是，果断使用多进程。

环境需求

Python 3.6+ 环境
pip install you-get
pip install requests
pip install multiprocessing

B站API介绍

收藏夹播放网址一般为：https://www.bilibili.com/medialist/play/ml941734307/p1 , 其中ml941734307为收藏夹id号

收藏夹基本信息

API地址：https://api.bilibili.com/x/v1/medialist/info?media_id=xxxxxx
将列链接中的xxxxx替换为收藏夹的id号941734307，即可获得收藏夹基本信息。

收藏夹中各个视频的AV号

API地址：https://api.bilibili.com/x/v1/medialist/resource/ids4Player?media_id=xxxxxxx

将列链接中的xxxxxxx替换为收藏夹的id号941734307，即可获得收藏夹中所有视频的av号（收藏的视频所属播单的其他视频除外）

收藏夹中各个视频的BV号

通过一下的api可以获取收藏夹播放列表中所有的视频信息（json格式）
API地址：https://api.bilibili.com/x/v1/medialist/resource/list?type=3&biz_id=941734307&offset_index=0&from=web&first_page=true&ps=1000

其中

type=3 表示列表的类型，不要变动。没有具体研究，目前只知type=2的列表需要登录，type=3不需要
biz_id=730696607 收藏夹的id
offset_index=0 从收藏夹中的第几个视频开始往后读取
from=web 表示请求来自web
first_page=true 当前为第一页
ps=1000 每次获取多少个视频的info
- 这里设置为1000，因为自定义收藏夹最大为1000，可以保证一次性获取到所有的视频信息
- 设为1000，有时会报错。该API获取播单所有视频的信息（包括视频所属其它播单），若收藏夹中保存了过多其它播单的视频，会导致json字符串过长，超出b站的限制，导致报错。酌情修改。

最终代码

import requests
from multiprocessing import Pool
import os

def analyse_palylist(ml_link):
    #获取收藏夹播放列表id
    ml_id = ml_link.split(r'/')[-2][2:]

    #获取收藏夹基本信息及名称
    info_api = 'https://api.bilibili.com/x/v1/medialist/info?media_id='+ml_id
    info_res = requests.get(info_api)
    collection_name = info_res.json()['data']['title']

    #获取播放列表的所有视频的链接
    list_api = 'https://api.bilibili.com/x/v1/medialist/resource/list?type=3&biz_id='+ml_id+'&offset_index=0&from=web&first_page=true&ps=1000'
    res = requests.get(list_api)
    video_infos = res.json()
    video_list = video_infos['data']['mediaList']
    video_link_list = [video_info['short_link'] for video_info in video_list]

    return collection_name, video_link_list

def download_video(save_dir, link):
    cmd = r'you-get -o "'+ save_dir +'" "'+ link+'"'
    os.system(cmd)
    
def current_batch_download(collection_name, save_dir, link_list):
    p = Pool(8)
    for link in link_list:
        p.apply_async(download_video, args=(save_dir,link))
    p.close()
    p.join()
    print(collection_name+" is done...")

if __name__ == '__main__':
    ml_link_list = ['收藏夹网址','https://www.bilibili.com/medialist/play/xxxxxx/p1']
    base_dir = r'G:\\B站收藏夹\\'
    for link in ml_link_list:
        collection_name, video_link_list = analyse_palylist(link)
        save_dir = base_dir + collection_name
        if not os.path.exists(save_dir):
            os.mkdir(save_dir)
        print("Start "+collection_name+ " donwloading...")
        current_batch_download(collection_name, save_dir, video_link_list)