探索YouTube转录：从视频到文本的完整指南

最新推荐文章于 2025-03-22 09:06:16 发布

aehrutktrjk

最新推荐文章于 2025-03-22 09:06:16 发布

阅读量781

点赞数 3

文章标签： python 开发语言

本文链接：https://blog.csdn.net/aehrutktrjk/article/details/142884762

版权

# 探索YouTube转录：从视频到文本的完整指南

## 引言

在当今以视频为主导的内容消费时代，获取视频的文本转录对于分析和理解内容至关重要。本文将介绍如何使用`YoutubeLoader`从YouTube视频中提取转录文本，并讨论如何处理语言翻译和分块处理等问题。

## 主要内容

### 1. 安装所需库

在开始之前，我们需要安装一些Python库：

```bash
%pip install --upgrade --quiet youtube-transcript-api pytube

2. 基本加载器使用

要从YouTube视频中提取转录文本，我们使用YoutubeLoader。以下是一个简单示例：

from langchain_community.document_loaders import YoutubeLoader

loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=QsYGlZkevEg", 
    add_video_info=False
)
transcripts = loader.load()

3. 添加视频信息

有时候，我们可能希望获取更多关于视频的信息（如标题和描述）。可以通过设置add_video_info=True来实现：

loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=QsYGlZkevEg", 
    add_video_info=True
)
transcripts = loader.load()

4. 语言和翻译选项

我们可以指定语言优先级和翻译偏好：

loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=QsYGlZkevEg",
    add_video_info=True,
    language=["en", "id"],
    translation="en"
)
transcripts = loader.load()

5. 获取时间戳分块转录

我们可以将转录文本分成时间戳块，以便更好地管理和分析长视频的内容：

from langchain_community.document_loaders.youtube import TranscriptFormat

loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=TKCMw0utiak",
    add_video_info=True,
    transcript_format=TranscriptFormat.CHUNKS,
    chunk_size_seconds=30
)
chunks = loader.load()
print("\n\n".join(map(repr, chunks)))