使用BiliBiliLoader获取Bilibili视频文本记录的实战指南

本文链接：https://blog.csdn.net/qahaj/article/details/146450795

Bilibili是中国最受欢迎的长视频网站之一。通过使用BiliBiliLoader，我们可以轻松地从Bilibili视频中提取文本记录。本文将详细解释如何使用该工具，包括设置环境和获取必要的cookie参数。

技术背景介绍

BiliBiliLoader利用bilibili-api接口来检索Bilibili视频的文本记录。要有效使用该加载器，您需要sessdata、bili_jct和buvid3这三个cookie参数。这些参数可以通过在浏览器中登录Bilibili并使用开发者工具提取相应值来获取。

即使您未提供这些cookie参数，加载器仍然能够正常工作，但只能检索视频的元数据信息，无法提取文本记录。

核心原理解析

BiliBiliLoader通过调用bilibili-api来获取视频的详细信息和文本记录。所需的cookie参数保障了对用户限定资源的访问权限。

代码实现演示

下面是一个使用BiliBiliLoader的Python代码示例。这段代码会展示如何初始化加载器并获取视频的文本记录。

# 首先安装必要的库
%pip install --upgrade --quiet bilibili-api-python

from langchain_community.document_loaders import BiliBiliLoader

# 定义所需的cookie参数
SESSDATA = "<your sessdata>"
BUVID3 = "<your buvids>"
BILI_JCT = "<your bili_jct>"

# 初始化BiliBiliLoader
loader = BiliBiliLoader(
    [
        "https://www.bilibili.com/video/BV1g84y1R7oE/",
    ],
    sessdata=SESSDATA,
    bili_jct=BILI_JCT,
    buvid3=BUVID3,
)

# 加载视频文档
docs = loader.load()

# 输出获取到的文档
for doc in docs:
    print(doc.page_content)

应用场景分析

通过BiliBiliLoader，用户可以方便地获取Bilibili视频的文本记录，这对数据分析、语言学习、内容创作等场景非常有帮助。例如，语言学家可以提取大量视频中的文本进行研究；内容创作者可以快速获取字幕并进行二次创作。

实践建议

确保获取并正确填写sessdata、bili_jct、buvid3这三个cookie参数，以充分利用BiliBiliLoader的全部功能。
对于需要处理大量视频的场景，可以考虑批量调用API来提高效率。
注意合理使用API，以避免触发接口的使用限制。

如果遇到问题欢迎在评论区交流。

—END—