小米下一代Kaldi将走向何方?道翰天琼认知智能机器人平台API接口大脑为您揭秘
如果你曾为《十面埋伏》中章子怡“听音辨鼓”的神技所惊艳,那么你也许就会被语音识别工具Kaldi的神通广大所倾倒。作为当前最流行的开源语音识别开发框架,Kaldi集成了多种语言识别模型,并被工业界、学术界几乎所有语音团队所采用。Daniel Povey博士,作为誉满业界的Kaldi之父,他对下一代Kaldi以及其中所包含技术的发展又有何新的思考呢?在2020北京智源大会的主题报告《可微分的加权有限状态机及其机器学习应用》中,Daniel Povey为我们揭晓了答案。
Daniel Povey,开源语音识别工具Kaldi之父,前约翰霍普金斯大学语言与语音处理中心研究型副教授,现任小米集团语音首席科学家。
在演讲中,Daniel Povey首先指出了当前版本Kaldi的一些缺陷,并提出了一些下一代Kaldi发展方向的战略构想;其次,就“加权有限状态机”这一关键技术以及其在下一代Kaldi中如何应用进行了阐述;在报告的尾声,Daniel历数传统确定化算法的优缺点并阐述了其算法的主要思想。
一、Kaldi及其下一代
Kaldi,得名于传说中发现了咖啡树的埃塞俄比亚牧羊人,其诞生于2009年约翰霍普金斯大学(Johns Hopkins University)的一个名为“新语言和新领域的低开发成本和高质量语音识别”的研讨会。作为语音识别领域的后起之秀,Kaldi已被工业界和学术界的从业者所广泛接受,俨然成为当前最流行的开源语音识别工具。Kaldi主要使用C及C++进行开发编写,在此之上使用Bash和Perl以及Python脚本调用C++代码进行工具开发。
Kaldi有着与HTK相仿的目标和受众,拥有很多处理实际任务的实例以及大量可以复用的脚本是其广受欢迎的众多原因之一,其鲜明特色主要包括:
1)与有限状态传感器(FSTs)的代码级集成;
2)广泛的线性代数支持,包括一个封装了标准的BLAS和LAPACK例程的矩阵库;
3)可扩展设计;
4)开放式许可。
Kaldi的优点不可否认,但其十分复杂以及没有专长技能作为前提则不易学会的缺点也饱受诟病。此外,因为Kaldi本身不支持整数化,故很难在手机上实现产品化。虽说Kaldi使用的是自己的深度学习框架,但这个框架并不容易使用。Daniel Povey也在本次报告中直言不讳地指出“尽管Kaldi拥有自己的神经网络框架,但其通用程度却不及PyTorch和TensorFlow”,故他便有了将PyTorch应用到下一代Kaldi深度神经网络中且允许在PyTorch和TensorFlow之间实现灵活切换的想法。如若这个想法在下一代Kaldi中得以实现,那将使得Kaldi与标准框架PyTorch和TensorFlow实现更好的结合。
Daniel Povey表示,下一代Kaldi将非常不同,几乎没有与现有Kaldi通用的代码,他希望下一代Kaldi能实现以下目标:
1)用少量代码就实现像联结主义时间分类算法(CTC)这样的功能;