Kaldi拜拜!PyTorch语音工具包SpeechBrain要来了,支持多种语音任务,实现最强水准...

郭一璞 假装发自 蒙特利尔 
量子位 报道 | 公众号 QbitAI

你厌倦语音工具包Kaldi了么?有没有觉得它不好用?

加拿大也有一群人这么认为。

现在,图灵奖得主、AI三巨头之一Yoshua Bengio领衔的研究机构Mila宣布,要联合英伟达、杜比、三星、PyTorch官方、IBM AI研究院等公司和机构,做一个新的开源一体化语音工具包:SpeechBrain

640?wx_fmt=png

这个工具包将会非常全能,能用来做语音识别(end-to-end & HMM-DNN)、说话人识别、语音分离,多麦克风信号处理(beamforming)、自我监督和无监督学习、语音增强等任务。

SpeechBrain会建立在PyTorch上,并且和PyTorch官方合作,所有功能都在PyTorch中实现,当然,用的是Python,不是C++。

并且,SpeechBrain将会设计成一个独立的框架,会有Kaldi这类常用的工具包的接口。

其他工具包不完美

准备做这样一个工具包的初衷,是因为别家的语音工具包都不好用。

蒙特利尔大学博士后Mirco Ravanelli在SpeechBrain的官方视频里,把竞对统统吐槽了一遍:

640?wx_fmt=png

Kaldi,虽然非常高效,表现也好,但是忒难用,不灵活,总得改C++代码;

PyKaldi,虽然用上了机器学习界宠儿Python,但本质上跟Kaldi还是一回事嘛;

PyTorch-Kaldi,虽然灵活了一些,声学模型也易于修改,但是,跟前面一样,它也还是Kaldi呀;

ESPNET,虽然是基于Python和PyTorch的,但是只支持端到端语音识别,太不全面了;

因此,Mirco Ravanelli说,将会把SpeechBrain设计成一个易用、用户友好、端到端的工具包,支持多任务系统,帮助大家提升研究和开发的效率,会是单一的工具包,而不是一堆各种各样的工具,并且实现state-of-the-art的语音技术水平。

另外,他们还会建设SpeechBrain的用户社区,让大家一起来分享模型技术和经验。

业界热烈欢迎

有人觉得,Kaldi那么难用,总算有人要出新的取代它了:

640?wx_fmt=png

甚至Kaldi的铁杆粉丝也觉得需要更灵活的工具来代替它:

640?wx_fmt=png

还有人称赞,这就是语音界的ImageNet时刻:

640?wx_fmt=png

总之,如果SpeechBrain真的如预期一样诞生,那么Kaldi可能真的要吃灰了。

传送门

最后,SpeechBrain项目也在招实习生,如果有蒙特利尔的读者可以围观一下。

另外,如果你要去参加下周的interspeech,可以听到更多消息。

项目官网:

加入社群 | 与优秀的人交流

640?wx_fmt=png

小程序 | 全类别AI学习教程

640?wx_fmt=jpeg

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值