语音识别（ASR）基础介绍第四篇——当今流行做法与CTC-阿里云开发者社区

最新推荐文章于 2024-09-01 08:31:04 发布

编程大乐趣

最新推荐文章于 2024-09-01 08:31:04 发布

阅读量1.9k

点赞数

本文介绍了CTC（Connectionist Temporal Classification）算法在语音识别（ASR）中的重要性，它简化了训练过程，省去了人工对齐的步骤。CTC通过引入blank标签和邻近去重映射解决了输入序列远大于输出序列的问题。此外，文中还提及了DNN-HMM混合系统、RNN和LSTM-CTC等当前流行的ASR模型。

摘要由CSDN通过智能技术生成

本篇开始，就进入到了asr当前的流行做法。这里单独提到了CTC算法。这个算法对当前asr使用deep learning的方法有重大影响。

总体感觉，写到本篇，工作量反而变得很小。因为进入deep learning时代后，神经网络模型基本都是那么几种，已经不再需要挨个详细介绍。而且看图就能理解的很明白。所以本篇后半部分基本就是贴图了。。:D

一、CTC

在CTC之前，训练语料要配合上一篇中提到的方法，需要人工把音频中每个时间段对应的是哪个音素的信息标注清楚。这个工作量和对人及金钱的需求是巨大的。基本都是百万级别手笔。有个CTC之后，给定一个音频，就只要告诉这个音频说的是什么文本就好了。省掉了对齐的那一步。由此，其重要性可自行判断。

关于CTC，感觉与其这里坑坑洼洼的介绍，不如直接参考这篇知乎的文章——https://zhuanlan.zhihu.com/p/36488476，一看就懂。

这里就大概说明下CTC的大致原理，详情还是需要直接看下知乎的那篇文章。

CTC 大致原理

半定义性质的讲：CTC 要解决的问题是，算法输入序列的长度远大于输出序列长度的问题。语音识别问题的输入长度是远大于输出长度的，这是因为语音信号的非平稳性决定的，就比如说 “nihao”，如果按时间片切分，就变成了"nnnnn iiiiii hhh aaa oo" ，但不论怎么表达，这句话最后的标签都是 “nihao”

CTC 为解决这个问题，做了两个操作：

其一是引入了blank 标签。还记得wav音频的格式吗？这里面声音有高峰也有趋近于0的时候。 CTC中认为，高峰（spike）段的声音对应着音素的labelÿ

最低0.47元/天解锁文章

编程大乐趣

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

编程大乐趣 CSDN认证博客专家 CSDN认证企业博客

码龄12年

24: 原创

2万+: 周排名

119万+: 总排名

575万+: 访问

: 等级

1万+: 积分

2081: 粉丝

1762: 获赞

7: 评论

1万+: 收藏

私信

关注

热门文章

最新评论

用python怎样做学生管理系统用类的形式-Python配置管理的几种方式
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客内容丰富，介绍了用python实现学生管理系统用类的形式和Python配置管理的几种方式。我觉得可以继续深入探讨Python配置管理的相关知识，比如如何使用配置文件、环境变量等方式来管理应用程序的配置信息。这样的技术文章对其他用户也会非常有帮助。下一篇博客建议可以写关于Python配置管理的具体实现方法和技巧，相信会有更多读者受益。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
15个PHP关于高并发的面试题（总结）
后端木木: 开刷撒
11个程序员最常犯的MySQL错误（PHP开发）
向彪-blockchain: 博主写的非常清晰，对我很有帮助，谢谢，方便可以互相关注。共同学习~方便的话可以加个关注。共同学习！一起进步！
2020年最新的PHP面试题（附答案）
向彪-blockchain: 写的挺不错的，继续加油哦！方便的话可以加个关注。共同学习！一起进步！
2020年，为什么你该学PHP？！！
向彪-blockchain: 比较简单，适合小白。方便的话可以加个关注。共同学习！一起进步！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。