使用Whisper生成视频字幕

最新推荐文章于 2024-11-29 11:02:14 发布

Silver__Wolf

最新推荐文章于 2024-11-29 11:02:14 发布

阅读量784

点赞数

分类专栏：开源大模型使用文章标签： whisper 音视频

本文链接：https://blog.csdn.net/Silver__Wolf/article/details/131873275

版权

开源大模型使用专栏收录该内容

8 篇文章

订阅专栏

使用Whisper生成视频字幕

Whisper介绍

Whisper是openai开源的一个通用的语音识别模型，它在不同音频的大型数据集上训练，也是一个多任务模型，可以执行多语言语音识别、语音翻译。Whisper代码地址,Whisper论文地址

搭建Whisper运行环境

Whisper使用了pytorch深度学习框架，因此需要先安装pytorch官网，openai将Whisper封装成了python库，我们非常简便的进行安装、使用。

安装pytorch(GPU版本)

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

安装Whisper库

pip install -U openai-whisper

生成视频的字幕

在生成字幕之前我们需要提取视频文件的音频数据，提取方式详见使用FFMPEG提取音频数据。命令下调用Whisper生成音频的字幕。

whisper output.mp3 --language Chinese --model medium

– language 目标语言的种类
– model 选择模型

目前Whisper提供的模型有如下几种（目前的使用情况medium相比large差别不是很大）：
在这里插入图片描述
Whisper在各语言上的表现（数值越小越好）：

思考

Whisper能不能用来翻译小姐姐的视频呢？翻译的效果何如？

结尾

欢迎加入群聊一起学习、讨论技术！
B站账号：Silver__Wolf_
Q：130856474

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Silver__Wolf

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

如何一键生成字幕，如何快速处理生肉资源？借助whisper语音识别系统生成.srt字幕文件手把手教学在Windows、CPU版本下whisper的安装与使用，快速上手！

weixin_43401024的博客

03-20

8244

Whisper是Open AI开源的语音识别网络，支持98中语言，用于语音识别和翻译等任务。我们可以将歌曲的歌词进行识别，将无字幕的视频资源自动生成字母，极大方便了用户。同时，whisper可以在本地运行，充分保障了个人隐私。在识别方面也具有较准确的识别能力。因此想通过本文对whisper的安装和使用进行说明，希望能对正在学习的伙伴给予参考。从不同的测试结果可以看到，whisper的识别效果还是不错的，最后的字幕的显示结果也讨人欢喜。

不到百行代码，使用Whisper进行视频字幕生成。

qq_39761689的博客

03-01

1473

试过了不同的模型，对于将视频类容转录成英文文本效果还是不错的，翻译成中文的效果还是差了点。而且小模型容易将音乐等背景识别成字幕，medium和large这种问题相对较少，但是识别的速度很慢。所有建议使用medium模型。如果没有翻译成除英语外的其他语言的需求，建议使用medium.en英语专用模型。模型识别的内容是准确的，但是会有其他多余背景的被识别成字幕，所有在添加到视频的时候，可以对照视频进行校对后再添加到视频中。对于翻译成中文不准确这个问题，可以使用腾讯云的机器翻译进行转译，下期出。

参与评论您还未登录，请先登录后发表或查看评论

使用WhisperDesktop生成视频字幕

qq_40167860的博客

10-15

1151

官方的模型是.pt格式，我们使用WhisperDesktop是基于官方工具封装的，要使用这里给出的模型，是Whisper的ggml版本，也就是Whisper.cpp。从大到小依次为tiny、base、small、medium、large，一般使用medium模型就够了，越大的模型除了效果越好，本文使用的模型是。输出格式五个选项：无、文本文件、带时间戳的文本、SubRip字幕（srt）、WebVTT字幕（vtt）选择语言，选择视频源文件，选择输出格式，选择字幕输出位置，点击转写按钮。转写完成，用时6.8秒。

ChatGPT开源的whisper音频生成字幕

shelutai的博客

05-06

2251

好了，那接下来看一下whisper开源库的介绍有五种模型大小，其中四种仅支持英语，提供速度和准确性的权衡。上面便是可用模型的名称、大致的内存需求和相对速度。如果是英文版的语音，直接想转换为英文。本来我是想直接在我的本地电脑上安装环境的，也就是无非安装python、ffmpeg、以及whisper，但是发现电脑配置太低了，而且我想测试一下large模型，CPU肯定是不行，但是如果用本机的GPU也是快不到哪里去的。所以这里我想到谷歌的。

利用python+whisper生成视频字幕文件

weixin_48169169的博客

12-14

5592

python利用openai开源模型whisper批量生成字幕文件

【whisper】在python中调用whisper提取字幕或翻译字幕到文本_python whisper

2301_82000445的博客

02-02

4051

whisper 是一款用于语音识别的开源库，支持多种语言，其中包括中文。在本篇文章中，我们将介绍如何安装 whisper 以及如何使用它来识别中文字幕。

基于Whisper语音识别的实时视频字幕生成 (二): 在线实时字幕

Pika

04-09

1453

基于whisper的流式语音识别

使用Python和OpenAI Whisper为视频生成字幕

最新发布

jsyzliuyu的博客

11-29

2404

使用Python和OpenAI Whisper为视频生成字幕

whisper Open AI 字幕生成工具图形界面

05-24

【标题】"whisper Open AI 字幕生成工具图形界面" 涉及到的核心技术是人工智能中的自然语言处理（NLP）与自动语音识别（ASR），并且它具有一个直观易用的图形用户界面（GUI）。这款工具利用Open AI的技术，可能是...

利用Python与Whisper革新视频翻译：打造高精度字幕翻译流程。

qq1075222382的博客

05-06

1587

比如添加GPT-SoVITS的声音克隆，文本转语音功能，让原本说英文的视频，让他直接说中文也是可以实现的，就是感觉会很麻烦。需要注意，分离出来的音频可能会存在背景音，没有背景音的可以直接识别音频。步骤二，处理好音频后就是直接使用Whisper来实现语音转文字的效果。其中的.srt就是视频字幕文件，它的格式是这样的，有编号，有时间。1.对于个人讲解的教程类视频翻译非常的完美，准确度非常高。这是无限的钱，下一个在我当地的沃尔玛买盛宴酒吧的人，上面只是实现了翻译的流程，并没有处理其他的问题。

青梧字幕是一款基于whisper的AI字幕提取工具

10-09

青梧字幕AI文字提取程序底层使用的是C++版本的 whisper.cpp，前端界面使用 Electron + vite + typescript ，青梧字幕是完全本地化的程序，除了第三方翻译过程外不需要联网，所有数据存于本地，数据库使用的是 sqlite。

英文视频添加中英双语字幕（基于Whisper语音识别和Google翻译）

qwe33433的博客

05-06

2555

英文视频添加中英双语字幕（基于Whisper语音识别和Google翻译）

基于whisper的语音转文字（视频字幕）

Helloorld_1的博客

06-06

2765

由于之前在学习油管的视频的时候，发现没有字幕，自己的口语听力又不太好，所以，打算开发一个能够语音或者视频里面，提取出字幕的软件。conda env create -f environment.yaml，就可以快速创建一个conda的虚拟环境了！在寻找了很多的开源仓库，发现了openai早期发布的whisper。另外由于，需要对音频进行处理，所以我们还需要下载一个。然后解压，将bin的文件路径放到环境变量里面去。安装环境我用的anconda的方式去安装的，还需要下载模型，在仓库链接里面可以找到的！

基于whisper模型的在线添加视频字幕网站（持续更新）

qq_44445108的博客

11-20

5791

基于whisper的在线添加视频字幕网站

使用whisper生成音频字幕——前期准备

qq_51537858的博客

04-25

395

最近我们要写一个把没有字幕的音频生成字幕的APP，前期调研的很多方式，使用whisper可以实现，这篇文章就是说一些前期准备工作，我就不自己再写一篇了，参考以下两篇文章就行了。

使用开源 Whisper 视频转文字

hawk2014bj的博客

09-21

1187

Whisper 音频转文字，meduim 尺寸模型的效果就可以满足大部分需求了，如果音频文件比较大，需要分段处理，例如 10 秒一个分段。模型文件已经上传 ModelScope，有需要的同学可以下载。

whisper和沐神讲解whisper做的开源工具做的Autocut——————python-根据语音识别让无字幕视频自动生成字幕，附srt字幕文件

东方

12-30

602

视频下方有详细教程。

python whisper实现视频文字提取

wjianwei666的专栏

02-01

507

在这里，我们首先将每一帧转换为灰度图像，然后使用pytesseract.image_to_string()函数提取文字，并将提取的文字添加到text列表中。这里，我们使用一个循环来读取视频的每一帧，并将每一帧添加到frames列表中。在这篇文章中，我们将教会你如何使用Python Whisper库来实现视频文字提取。这里，我们使用一个循环来遍历提取到的文字，并将每一帧对应的文字输出到控制台。现在，我们将使用OCR技术从视频帧中提取文字。pytesseract是一个OCR库，用于提取视频帧中的文字。

【whisper】使用whisper实现语音转文字

xudawu201的博客

09-01

831

whisper需要ffmpeg支持。下载完毕后解压放到合适的位置。官网下载ffmpeg。出现下面结果代表成功。在vscode中运行。

python whisper 生成字幕自动换行

11-19

Whisper是一种用于语音识别的库，它通常用于将音频转换成文本。然而，Whisper本身并不直接提供字幕生成功能，尤其是自动换行的字幕处理。对于字幕制作，更常见的工具是Subtitle Workshop或专门的视频编辑软件，如Adobe Premiere Pro、Aegisub等。如果你想要让Whisper生成的文字按照合适的长度自动换行，你需要结合其他技术，例如编程语言（Python），利用字符串处理函数（如`split()`、`wrap()`等）对识别出的文字进行分段，并设置合理的换行点。以下是一个简单的示例： ```python from Whisper import Whisper # 使用Whisper进行语音识别 audio_file = "example.wav" model_path = "whisper_model" transcript = Whisper(model_path=model_path).transcribe(audio_file) # 自动换行的处理 max_chars_per_line = 50 # 每行最大字符数 lines = [text[i:i+max_chars_per_line] for i in range(0, len(text), max_chars_per_line)]