语音 AI 技术简介

语音 AI 技术(e.g. 语音识别、语音合成)是人工智能重要的研究和应用方向。但是,不同于 CV、NLP 等“显学”,语音相关的从业人员(学界和业界)相对较少,语音领域的学术会议和期刊影响力也比较有限。

语音 AI 是一个多学科交叉的技术方向,涉及到信号处理、语言学、语音学(e.g. 发音规律)、心理学(e.g. 听觉感知)、传统机器学习以及深度学习等。近几年,随着深度学习的快速发展,语音也大量借鉴 CV、NLP 等领域的方法和成果。

鉴于此,我们简要梳理了语音 AI 的主要技术及应用场景。一方面,希望能够吸引更多不同专业背景的同侪投身语音AI领域;另一方面,希望能对有志于学习语音技术的同学提供一些帮助。欢迎有兴趣的同行或同学私信交流。

1. 技术方向

语音 AI 包括了一系统相关的技术,下面对其中的若干重要方向进行简要介绍。(一篇旧文,介绍了语音算法在智能音箱中的应用,感兴趣的读者也可以参考。)

1.1 语音识别

1.1.1 ASR

语音识别(Automatic Speech Recognition, ASR)是将语音信号转换成对应文本的 AI 技术。大词汇连续语音识别(LVCSR)的技术突破开始于 20 世纪 80 年代,此时隐马尔可夫模型(HMM)被用于建模语音信号。早期使用高斯混合模型(GMM)对发音分布进行建模,这种方案称为 GMM-HMM 系统。
基于 HMM-GMM 的技术方案在 20 多年前已经发展成熟,其中 HTK 为集大成者。Kaldi 后来居上,基本终结了这方面的学术研究和工程开发(欧洲、日本有团队使用其他类似但比较小众的工具)。
基于人工神经网络(ANN)的 ASR 研究几乎与 GMM 方案同时开展,但由于早期各方面条件不成熟,没有能够成功应用。2009 年前后,深度神经网络(DNN)被重新引入声学建模,并取得了突破性的进展。相关成果在 12 年被 Google、微软等 5 家主流研究机构共同报告,ASR 进入深度学习时代。使用深度神经网络做为声学模型的方案称为 DNN-HMM 系统,通常也称为 hybrid 系统(建模过程中混合使用了 GMM-HMM 相关技术)。

GMM-HMM 和 DNN-HMM 都属于传统的语音识别系统(conventional ASR),它们由若干独立模块组成:前端模块、声学模型、发音辞典、语言模型和解码器。端到端(End-to-End)语音识别方案则希望将各个模块统一起来,由单独的神经网络进行联合建模与优化。

端到端建模是也深度学习领域的圣杯。目前主流 CV 和 NLP 任务,以及声纹认证、声学场景分析等较简单的语音任务目前基本都是以端到端方案为主。语音识别、语音合成、语音信号处理由于问题本身的复杂性,目前还处于传统方案和端到端并存的阶段。虽然端到端未来能否完全取代传统方案,目前仍存在较大的争议,但一个基本的实事是,端到端是当下研究的主流,在很多场景也展现了显著的性能优势。

早在 2014 年之前,学界和业界就开始了端到端 ASR 方案的探索。从识别效果上, 18 年前后离线端到端系统基本达到可用水平。19 年后,端到端成为学术研究的主流。目前学术会议上已经很少能看到传统语音识别的相关工作了。
目前,端到端 ASR 有三种主要的实现方案——

  • 4
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值