NLP基础知识之语音识别

最新推荐文章于 2023-12-08 00:39:06 发布

今天学习算法了吗

最新推荐文章于 2023-12-08 00:39:06 发布

阅读量3.3k

点赞数 2

分类专栏：语音识别文章标签：自然语言处理语音识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_56618741/article/details/121163073

版权

本文探讨了语音识别的基本概念，包括输出类别（phoneme、grapheme、word等）和输入特征（如MFCC）。介绍了seq-to-seq模型架构中的down-sampling、encoder、attention机制和decoder的细节，如RNN、CNN、self-attention模型。讨论了不同的解码方法（greedy decoding、beam search）和损失函数（交叉熵损失）。同时，提到了label smoothing在防止过拟合中的作用。

摘要由CSDN通过智能技术生成

1. 语音识别的输出类别：

1）phoneme：输出为发音，比较简单，因为语音跟发音是一一对应的，但是需要一个词汇表，表示发音跟word的对应。

2）Grapheme：字母或者token

3）word：短语，V会很大

4）morpheme：代表含义的最小单位

5）byte：utf-8，适用于任何语言

2. 输入特征：（具体的处理可以看下图，以MFCC为例子，如果不经过DCT，就是目前用的最普遍的fliter bank output）

3. 那确定了输入以及输出，接下来介绍中间的模型。

1）以下的模型都是seq-to-seq模型架构的：

⚠️encoder：

最低0.47元/天解锁文章

今天学习算法了吗

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
NLP基础知识之语音识别

1. 语音识别的输出类别：1）phoneme：输出为发音，比较简单，因为语音跟发音是一一对应的，但是需要一个词汇表，表示发音跟word的对应。2）Grapheme：字母或者token3）word：短语，V会很大4）morpheme：代表含义的最小单位5）byte：utf-8，适用于任何语言2. 输入特征：（具体的处理可以看下图，以MFCC为例子，如果不经过DCT，就是目前用的最普遍的fliter bank output）3. 那确定了输入以及输出，接下来介绍中间的模型。.
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。