0_Speech Recognition Technology

Vicky Psyche

已于 2022-08-04 17:57:53 修改

阅读量614

点赞数 2

分类专栏： Speech Recognition 文章标签：语音识别深度学习人工智能

于 2022-08-04 17:54:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_57689584/article/details/126164108

版权

Speech Recognition 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

0_Speech Recognition Technology

本文是参考B站课程所做的笔记，仅供自己学习用

part 1: How do machines understand us

在这里插入图片描述

按照上图进行的步骤为：speech signal --> feature extraction --> decoding --> recognition result

其中decoding一步的步骤为：acoustic model --> dictionary --> language model

Part 2: An end-to-end ASR

由于传统的语音识别步骤比较繁琐，所以希望能够省去其中的步骤，直接由语音信号得出语音识别的结果，端到端技术的发展使得这一设想成为可能。
在这里插入图片描述

2006年，几位大神提出了CTC的概念：

在CTC出现以前，我们的输入需要依靠人为的分段，之后才能识别；

在CTC中，引入空字符、空格等特殊字符加上英文的26个字母，直接学习字母级别的映射关系，相同映射的部分用同一个字符来表示，最后进行合并。

在这里插入图片描述

CTC简单来说是一个损失函数，通过训练使损失达到最小。

但CTC的成立建立在序列字母间是相互独立的条件下，但文字的上下文间显然是有关联的。

在这里插入图片描述

2015年，注意力机制首次被提出应用（Attention based encoder-decoder）

注意力机制是一个双向网络，在预测字符的同时也兼顾了上下文间的信息，但由于它是双向网络，所以它无法预知未来出现的元序列，因此便出现了端到端。

端到端（streaming end-to-end），以online RNN-T模型为例，将当前的输出作为下一时刻的输入，便解决了注意力机制的缺陷。
在这里插入图片描述

Part 3: Useful dataset

当拿到一个语音数据集时要重点关注以下部分：

在这里插入图片描述

几个常见的数据集：

2000 HUB5 English: 从40个电话对话抽取的英语口语数据
LibriSpeech: Audiobooks的数据集，包含了500个小时不同读者读的audiobooks录音，根据audiobooks的章节进行组织的。
TED-LIUM: 1495个TED的演讲录音
Free Spoken Digit Dataset: 1500个英语读数字的录音
TIMIT: 630个美国英语发音的朗读者的数据集。

一些相关信息：

在这里插入图片描述

部分下载路径：

LibriSpeech http://www.openslr.org/12/
THCHS-30 http://www.openslr.org/18/
Aishell http://www.openslr.org/33/

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
0_Speech Recognition Technology

本文是参考B站课程所做关于语音识别的笔记，仅供自己学习用
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。