使用Whisper生成视频字幕

Whisper介绍

  Whisper是openai开源的一个通用的语音识别模型,它在不同音频的大型数据集上训练,也是一个多任务模型,可以执行多语言语音识别、语音翻译。Whisper代码地址,Whisper论文地址

搭建Whisper运行环境

  Whisper使用了pytorch深度学习框架,因此需要先安装pytorch官网,openai将Whisper封装成了python库,我们非常简便的进行安装、使用。

  • 安装pytorch(GPU版本)
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
  • 安装Whisper库
pip install -U openai-whisper

生成视频的字幕

  在生成字幕之前我们需要提取视频文件的音频数据,提取方式详见使用FFMPEG提取音频数据。命令下调用Whisper生成音频的字幕。

whisper output.mp3 --language Chinese --model medium
  • – language 目标语言的种类
  • – model 选择模型

  目前Whisper提供的模型有如下几种(目前的使用情况medium相比large差别不是很大):
在这里插入图片描述
  Whisper在各语言上的表现(数值越小越好):
在这里插入图片描述

思考

  Whisper能不能用来翻译小姐姐的视频呢?翻译的效果何如?

结尾

欢迎加入群聊一起学习、讨论技术!
B站账号:Silver__Wolf_
Q:130856474

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值