Speech recognition——陈果果——深蓝
-
目前语言领域(包括语言识别、唤醒)的进展,以及实际落地中遇到的困难?
- 唤醒:小度、亚马逊 >> 二级系统、一级系统;低功耗芯片
- 语言识别:
挑战:模型的裁剪(低功耗设备端端移植)、数据回流(迭代模型)、复杂场景下识别
-
智能语音在嵌入式设备端落地时,相比于服务器端,有哪些是需要特别考虑的因素?
数据回流:隐私问题(数据智能保留2星期)——服务器
嵌入式:1、用户数据无法回流。(联邦学习是好方向);2、降低功耗是首要问题(模型的裁剪和压缩;工程,做指令集的优化fft、直接用汇编指令实现) -
建议?
参与实际工作。 -
发布的英文版语音识别数据集介绍
GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of Transcribed Audio
https://github.com/SpeechColab/GigaSpeech
Future Work
- More languages
- More benchmarking
- Pre-trained models
- Fine-tuning
- PySpeechColab
- Decoders