使用Whisper生成视频字幕
Whisper介绍
Whisper是openai开源的一个通用的语音识别模型,它在不同音频的大型数据集上训练,也是一个多任务模型,可以执行多语言语音识别、语音翻译。Whisper代码地址,Whisper论文地址
搭建Whisper运行环境
Whisper使用了pytorch深度学习框架,因此需要先安装pytorch官网,openai将Whisper封装成了python库,我们非常简便的进行安装、使用。
- 安装pytorch(GPU版本)
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
- 安装Whisper库
pip install -U openai-whisper
生成视频的字幕
在生成字幕之前我们需要提取视频文件的音频数据,提取方式详见使用FFMPEG提取音频数据。命令下调用Whisper生成音频的字幕。
whisper output.mp3 --language Chinese --model medium
- – language 目标语言的种类
- – model 选择模型
目前Whisper提供的模型有如下几种(目前的使用情况medium相比large差别不是很大):
Whisper在各语言上的表现(数值越小越好):
思考
Whisper能不能用来翻译小姐姐的视频呢?翻译的效果何如?
结尾
欢迎加入群聊一起学习、讨论技术!
B站账号:Silver__Wolf_
Q:130856474