《AI上字幕》基于openAI研发的whisper模型,语音(视频)一键转文本/字幕/带时间轴/支持多语言/自带翻译《桌面版教程》

简介:

OpenAI的chatGPT非常火爆,其实OpenAI旗下的另一个模型实力也十分强大,它就是开源免费的Whisper语音转文本模型,目前为止它是较为顶尖的语音转文本模型

当前github上也有许多出色的开发者根据此模型开发出桌面版语音转文字应用。较为出色的分别是Buzz和WhisperDesktop

功能:

  • 支持将多种语言的视频或者音频文件,转换成字幕文件、带时间轴的文本、纯文本。
  • 支持多语言音翻译成英文
  • 英文可以使用网页翻译功能翻译成中文

用途:

  • 字幕文件导入剪辑软件可以一键上字幕,生产力MAX
  • 配合PotPlayer能够生成双语字幕,学习英语简直离不开它俩
  • 对于纯外语不带字幕靠听力的视频资料,简直不要太友好
  • 视野开阔的必备工具,经常了解世界顶尖科技的童鞋们应该知道,大佬们的视频基本都是口述讲解,有了它,随时随地快速学习。

优劣势:

  • 准确率极高!超出你使用过的绝大多数在线转写!OpenAI训练的模型就不用多说了吧!基本不需要二次修改!
  • 速度超快!Whisper使用GPU进行转写(仅支持N卡),5分钟的视频还是使用最大的模型,亲测只需要30秒!(没有对比就没有伤害,只有剪过视频的同学才知道其他软件的痛)
  • 永久免费!一些在线转字幕网站收费真的很贵,时间真的很长!
  • 对于GPU性能弱的同学,Buzz使用CPU转写,虽然准但是速度真的很慢,使用最大模型5分钟的视频能需要10分钟。
  • 仅支持本地使用,网页视频我从来不会用这个,网页视频可以使用插件生成双语字幕,也很轻松,这里不做过多介绍。

下面贴出他们的官网:GitHub - chidiwilliams/buzz: Buzz transcribes and translates audio offline on your personal computer. Powered by OpenAI's Whisper.GitHub - Const-me/Whisper: High-performance GPGPU inference of OpenAI's Whisper automatic speech recognition (ASR) model​​​​​​

使用说明:

仅演示Whisper,Buzz和Whisper仅仅是界面不同,从官网下载后打开软件程序,首先选择模型,模型和程序都在上面的官网中。

点击ok等待结束,然后第一栏选择原音视频的语音,translate若勾选则输出英文,不勾选直接输出原音视频语言。

地址栏第一行选择音视频地址,第二行选择输出地址,若勾选place that file选项则代表输出到原文件夹中。output format选项中选择输出类型:纯文本,带时间轴的文本,字幕srt文件等。

结束语:

汪~到这里教程完全结束了!本人不推荐buzz,由于它使用cpu处理文件,导致它处理速度和其他软件速度不相上下。如果您的电脑为轻薄本,建议使用在线服务,例如讯飞每天有免费额度官网如下:讯飞听见-免费在线录音转文字-语音转文字-录音整理-语音翻译软件

但是您仍然可以使用buzz因为它真的很准确,远超其他软件并且免费。

博主有话说:

算是给看到最后的人的福利吧建议看完


还记得三四年前大概是我大一的时候,剪视频只能用一写普通的模型转换文字,准确率很差,每次几乎每句话都要重新修改,加字幕甚至需要一个小时以上,累得要死。

一两年前,出现了类似讯飞这种语音行业顶尖的企业,准确率大幅提升,我开始用手机语音转文字,再把文字放入剪映中,加字幕不到半小时,但还是很麻烦。

现在,AI训练无数参数生成的模型,准确率高的不用我再检查,一键生成工具能够调用模型,生成处理完成仅用几分钟。


人工智能真的是发展的飞快,世间也是沧海桑田,合理运用工具的人只会效率更高,我深有感触,在最近的这些日子里,我学会了用chatgpt的API总结视频网站,一瞬间爬取字幕,并总结视频。这让我学习教学视频时知道哪些是我想要的,能够快速获取知识点。我学会了一键用chatgpt总结网页,并列举主要内容,这使我在学习不同领域的知识时能够快速获取要点,还有好多。。


有些跑题了,就说到这里,但是这些能够真真切切的提升我的学习效率。有那么一句话真的说的很对,AI不一定会淘汰你,淘汰你的是使用AI工具的人。至此,对大家进行警醒,跟随时代进步,我们才会进步。否则我们就会像上一代长辈不会使用手机一样,被时代淘汰。


人生,是不断的学习的过程,共勉。


以后在我博客中,不会再提及类似的感悟,算是给现在关注我的几十个粉丝们的小福利吧!最后,文章内容全部手打,本文用时6个小时。喜欢的朋友快来关注我吧!汪!(后续的文章可能会越来越精简了)

附图

附图:调用chatgpt的api总结一篇教学文章,文章是随机找的。

 附图:对某个网页视频进行总结。

 还没想好后续写什么,关注我,由浅入深学东西,欢迎私信!

  • 5
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Colab Whisper模型是一种先进的语音文字模型,它基于语音识别技术,利用深度学习算法将语音信号换为文本。 Colab Whisper模型的实现步骤如下: 1. 准备数据:首先,需要准备用于训练模型语音数据集。这些语音数据应该包含不同人的不同语音片段,涵盖不同的语言和口音。 2. 数据预处理:接下来,需要对语音数据进行预处理。这包括对语音信号进行采样和分割,去除噪音和不必要的部分,并将其换为模型可处理的格式,例如MFCC特征。 3. 构建模型:使用深度学习框架,如TensorFlow或PyTorch,构建Colab Whisper模型。该模型通常由多个卷积神经网络和循环神经网络层组成,用于提取语音信号的特征并进行序列建模。 4. 训练模型:使用准备好的语音数据集,通过反向传播算法和训练集的迭代,对模型进行训练。在每个迭代步骤中,模型会根据预测输出与实际标签之间的差异调整自身的权重和参数,以提高预测准确性。 5. 模型评估和优化:在每个训练周期结束后,使用验证集和测试集对模型进行评估。评估指标可以包括词错误率(WER)和字符错误率(CER)。通过这些指标,可以确定模型的性能,并对其进行改进。 6. 部署和应用:一旦模型训练完成并通过评估,就可以将其部署到实际应用中。通过输入语音信号,模型将对其进行换,并输出相应的文本结果。 总之,Colab Whisper模型通过深度学习算法实现了从语音文本换。通过准备数据、进行数据预处理、构建模型、训练模型、评估和优化以及部署应用等步骤,可以实现一个高效准确的语音文字系统。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值