0_Speech Recognition Technology

0_Speech Recognition Technology

本文是参考B站课程所做的笔记,仅供自己学习用

part 1: How do machines understand us

在这里插入图片描述

按照上图进行的步骤为:speech signal --> feature extraction --> decoding --> recognition result

其中decoding一步的步骤为:acoustic model --> dictionary --> language model

Part 2: An end-to-end ASR

由于传统的语音识别步骤比较繁琐,所以希望能够省去其中的步骤,直接由语音信号得出语音识别的结果,端到端技术的发展使得这一设想成为可能。
在这里插入图片描述

2006年,几位大神提出了CTC的概念:

在CTC出现以前,我们的输入需要依靠人为的分段,之后才能识别;

在CTC中,引入空字符、空格等特殊字符加上英文的26个字母,直接学习字母级别的映射关系,相同映射的部分用同一个字符来表示,最后进行合并。

在这里插入图片描述

CTC简单来说是一个损失函数,通过训练使损失达到最小。

但CTC的成立建立在序列字母间是相互独立的条件下,但文字的上下文间显然是有关联的。

在这里插入图片描述

2015年,注意力机制首次被提出应用(Attention based encoder-decoder)

注意力机制是一个双向网络,在预测字符的同时也兼顾了上下文间的信息,但由于它是双向网络,所以它无法预知未来出现的元序列,因此便出现了端到端。

端到端(streaming end-to-end),以online RNN-T模型为例,将当前的输出作为下一时刻的输入,便解决了注意力机制的缺陷。
在这里插入图片描述

Part 3: Useful dataset

当拿到一个语音数据集时要重点关注以下部分:

在这里插入图片描述

几个常见的数据集:

  1. 2000 HUB5 English: 从40个电话对话抽取的英语口语数据
  2. LibriSpeech: Audiobooks的数据集,包含了500个小时不同读者读的audiobooks录音,根据audiobooks的章节进行组织的。
  3. TED-LIUM: 1495个TED的演讲录音
  4. Free Spoken Digit Dataset: 1500个英语读数字的录音
  5. TIMIT: 630个美国英语发音的朗读者的数据集。

一些相关信息:

在这里插入图片描述

部分下载路径:

  • LibriSpeech http://www.openslr.org/12/

  • THCHS-30 http://www.openslr.org/18/

  • Aishell http://www.openslr.org/33/

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值