关于CTC模型的理解

最新推荐文章于 2024-04-24 09:57:16 发布

gzj_1101

最新推荐文章于 2024-04-24 09:57:16 发布

阅读量1.3w

点赞数 2

分类专栏： deep learning 论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gzj_1101/article/details/80153686

版权

本文主要探讨CTC（Connectionist Temporal Classification）模型，解释其在解决序列学习任务，特别是数据预分割问题中的作用。CTC通过RNN提供了一种无需预先处理数据的序列标注方法。文章介绍了CTC的背景、标签错误率的定义、CTC模型的构建，包括从输出到标签的映射，并讨论了CTC对齐的特性。此外，还简述了构建分类器的两种方法：Best path decoding和prefix search decoding。

摘要由CSDN通过智能技术生成

最近在看手势识别相关论文，在看到一篇论文的时候发现了LSTM+CTC能够解决数据预分割的问题。于是抱着学习的心态这篇论文《Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks》。所以本片博客的内容主要是基于论文以及斯坦福PhD的一篇博客，以及自己的一些理解。

预备知识

在看懂CTC之前需要了解隐马尔可夫模型和EM算法。其实CTC里面的思想和HMM很相似，但是又有所区别，如果搞懂了HMM，那么对于CTC的理解就会轻松很多。如果有对HMM不太懂的可以参考我前面几篇博客。

EM算法(Expectation maximization algorithm)

隐马尔科夫模型一(概念理解)

隐马尔可夫模型二(公式推导)

摘要

首先我们要搞清楚为什么要发明CTC，对于真实世界的序列学习任务，数据往往含有噪声和没有预先分割。RNN是一个强大的序列学习模型，但是需要对数据进行预先处理，所以有了CTC我们就能够提升RNN的性能。下面结合论文

标签错误率

首先文章定义了一个标签错误率(label error rate)来进行度量。其中 $x$ 和 $z$ 分别表示的是输入序列和标签序列， $S'$ 是一个 $(x,z)$ 的序列集合而 $|S'|$ 表示序列的对数，就是里面有多少对 $(x,z)$ 。

其中 $ED(p,q)$ 表示编辑距离，其中 $p,q$ 表示的是两个序列。编辑距离的意思是其中 $p$ 经过插入删除和替换字符等基本操作转换成序列 $q$ 的操作数。

CTC

从输出到标签

对于一个给定长度为 $T$ 的输入序列 $x$ ，定义一个RNN。并且定义 y

最低0.47元/天解锁文章

关注

2
点赞
踩
23

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。