语音 AI 技术简介

最新推荐文章于 2024-05-06 20:44:37 发布

置顶

MoussaTintin

最新推荐文章于 2024-05-06 20:44:37 发布

阅读量4.4k

点赞数 4

分类专栏：人工智能语音技术 HPC

本文链接：https://blog.csdn.net/jackytintin/article/details/118876055

版权

语音 AI 技术（e.g. 语音识别、语音合成）是人工智能重要的研究和应用方向。但是，不同于 CV、NLP 等“显学”，语音相关的从业人员（学界和业界）相对较少，语音领域的学术会议和期刊影响力也比较有限。

语音 AI 是一个多学科交叉的技术方向，涉及到信号处理、语言学、语音学（e.g. 发音规律）、心理学（e.g. 听觉感知）、传统机器学习以及深度学习等。近几年，随着深度学习的快速发展，语音也大量借鉴 CV、NLP 等领域的方法和成果。

鉴于此，我们简要梳理了语音 AI 的主要技术及应用场景。一方面，希望能够吸引更多不同专业背景的同侪投身语音AI领域；另一方面，希望能对有志于学习语音技术的同学提供一些帮助。欢迎有兴趣的同行或同学私信交流。

1. 技术方向

语音 AI 包括了一系统相关的技术，下面对其中的若干重要方向进行简要介绍。（一篇旧文，介绍了语音算法在智能音箱中的应用，感兴趣的读者也可以参考。）

1.1 语音识别

1.1.1 ASR

语音识别（Automatic Speech Recognition, ASR）是将语音信号转换成对应文本的 AI 技术。大词汇连续语音识别（LVCSR）的技术突破开始于 20 世纪 80 年代，此时隐马尔可夫模型（HMM）被用于建模语音信号。早期使用高斯混合模型（GMM）对发音分布进行建模，这种方案称为 GMM-HMM 系统。
基于 HMM-GMM 的技术方案在 20 多年前已经发展成熟，其中 HTK 为集大成者。Kaldi 后来居上，基本终结了这方面的学术研究和工程开发（欧洲、日本有团队使用其他类似但比较小众的工具）。
基于人工神经网络（ANN）的 ASR 研究几乎与 GMM 方案同时开展，但由于早期各方面条件不成熟，没有能够成功应用。2009 年前后，深度神经网络（DNN）被重新引入声学建模，并取得了突破性的进展。相关成果在 12 年被 Google、微软等 5 家主流研究机构共同报告，ASR 进入深度学习时代。使用深度神经网络做为声学模型的方案称为 DNN-HMM 系统，通常也称为 hybrid 系统（建模过程中混合使用了 GMM-HMM 相关技术）。

GMM-HMM 和 DNN-HMM 都属于传统的语音识别系统（conventional ASR），它们由若干独立模块组成：前端模块、声学模型、发音辞典、语言模型和解码器。端到端（End-to-End）语音识别方案则希望将各个模块统一起来，由单独的神经网络进行联合建模与优化。

端到端建模是也深度学习领域的圣杯。目前主流 CV 和 NLP 任务，以及声纹认证、声学场景分析等较简单的语音任务目前基本都是以端到端方案为主。语音识别、语音合成、语音信号处理由于问题本身的复杂性，目前还处于传统方案和端到端并存的阶段。虽然端到端未来能否完全取代传统方案，目前仍存在较大的争议，但一个基本的实事是，端到端是当下研究的主流，在很多场景也展现了显著的性能优势。

早在 2014 年之前，学界和业界就开始了端到端 ASR 方案的探索。从识别效果上， 18 年前后离线端到端系统基本达到可用水平。19 年后，端到端成为学术研究的主流。目前学术会议上已经很少能看到传统语音识别的相关工作了。
目前，端到端 ASR 有三种主要的实现方案——

最低0.47元/天解锁文章

MoussaTintin

关注

4
点赞
踩
32

收藏

觉得还不错? 一键收藏
1
评论
语音 AI 技术简介

语音 AI 技术（e.g. 语音识别、语音合成）是人工智能重要的研究和应用方向。但是，不同于 CV、NLP 等“显学”，语音相关的从业人员（学界和业界）相对较少，语音领域的学术会议和期刊影响力也比较有限。比如语音顶级会议 ICASSP 也仅是 CCF-B 类，InterSpeech 更是被划在 C 类；并且两个会议接近 50% 的文章接收率也经常为人诟病。语音 AI 是一个多学科交叉的技术方向，涉及到信号处理、语言学、语音学（e.g. 发音规律）、心理学（e.g. 听觉感知）、传统机器学习以及深度学习等。
复制链接

扫一扫