语音识别 - 历史发展

编程乐园

已于 2024-04-23 16:13:17 修改

阅读量2.7k

点赞数

文章标签：语音识别人工智能

于 2023-02-11 19:22:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lovechris00/article/details/128986680

版权

语音专栏收录该内容

12 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

语音识别技术经历了模板匹配、统计模型到深度学习的演变。20世纪60年代的模板匹配阶段，动态时间规整（DTW）的出现解决了语音时长问题。80年代，统计模型尤其是HMM-GMM成为主流。21世纪初，深度学习的引入，如DNN-HMM和端到端模型，显著提升了识别性能。现代技术包括CTC、Transformer和Attention机制，不断优化语音识别的准确性和鲁棒性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

语音识别技术的发展历史主要包括三个阶段：

模板匹配 DTW
统计模型 GMM-HMM
深度学习 DNN-HMM, E2E

一、模板匹配

20世纪60年代

1964年， Martin 提出了一种 时间归一化 的方法，来解决语音时长不一致的问题。
这个方法可以有效检测语音的端点，降低语音时长对识别结果的影响。
1966 年，卡耐基梅隆大学的 Reddy 使用动态跟踪音素的方法，进行了连续语音识别。这个具有开创性。
1969年，前苏联科学家 Vintsyuk 首次提出，将动态规划算法用于对语音信号的时间规整。

这十年语音识别理论取得明显进步，这三项工作为后面几十年的AST发展奠定了坚实基础。但距离真正可靠的ASR目标还十分遥远。

20世纪70年代

1970年，前苏联的 Velichko 和 Zagoruyko 将模式识别引入 ASR
同年，Itakura 提出线性预测编码（LPC）技术，并用于 ASR
1978年，日本人 Sakoe 和 Chiba 在 Vintsyuk 基础上，成功的使用动态规划算法&

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

编程乐园 请我喝杯伯爵奶茶~！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。