[通过YouTube转录API解锁视频内容：实现及最佳实践]

最新推荐文章于 2025-04-29 15:28:57 发布

awsedrfttyuu

最新推荐文章于 2025-04-29 15:28:57 发布

阅读量232

点赞数 3

文章标签： python 开发语言

本文链接：https://blog.csdn.net/awsedrfttyuu/article/details/144627573

版权

# 引言
视频内容在互联网上日益增多，而YouTube作为全球最大的视频分享平台，提供了丰富的信息资源。对于开发者来说，如何高效地提取和利用这些视频内容是一个重要的课题。本篇文章将介绍如何使用Python库从YouTube视频中获取转录信息，并提供实用的代码示例和解决方案，帮助您更好地利用视频数据。

# 主要内容

## 1. 安装必要的Python库
在开始之前，您需要安装以下Python库：
- `youtube-transcript-api`：用于提取视频的转录文本。
- `pytube`：用于获取视频的附加信息。

```bash
%pip install --upgrade --quiet youtube-transcript-api pytube

2. 基本使用

我们可以使用YoutubeLoader类从YouTube URL中加载转录信息。下面的代码展示了如何从给定的视频URL获取转录。

from langchain_community.document_loaders import YoutubeLoader

# 使用API代理服务提高访问稳定性
loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=QsYGlZkevEg", add_video_info=False
)

transcripts = loader.load()
print(transcripts)

3. 增加视频信息和语言偏好

通过设置add_video_info为True，可以获取更多关于视频的详细信息。此外，您可以指定语言偏好来获取特定语言的转录文本。

loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=QsYGlZkevEg",
    add_video_info=True,
    language=["en", "id"],
    translation="en",  # 翻译成英语
)
transcripts = loader.load()
print(transcripts)

4. 获取时间戳标记的转录块

使用TranscriptFormat.CHUNKS参数可以将转录分成有时间戳标记的块，每个块的长度可以通过chunk_size_seconds指定。

from langchain_community.document_loaders.youtube import TranscriptFormat

loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=TKCMw0utiak",
    add_video_info=True,
    transcript_format=TranscriptFormat.CHUNKS,
    chunk_size_seconds=30,
)
chunks = loader.load()
for chunk in chunks:
    print(chunk)

代码示例

示例：获取并打印视频的转录文本

from langchain_community.document_loaders import YoutubeLoader

# 样例API端点 {AI_URL}
# 使用API代理服务提高访问稳定性
loader = YoutubeLoader.from_youtube_url(
    "{AI_URL}", add_video_info=True
)

transcripts = loader.load()
print(transcripts)