语音识别（Speech Recongnition）

最新推荐文章于 2025-10-14 22:16:55 发布

原创

最新推荐文章于 2025-10-14 22:16:55 发布 · 1.8k 阅读

·

21

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语音识别 #人工智能

Speech Recongnition
TTS（Text-to-Speech），属于Speech Synthesis

典型模型Tacotron，用的是一个典型的 Seq2Seq + Attention 的模型架构。它输出还会有个后处理（Post-processing）才会产生声音频谱（spectrogram）。

CBHG结构（G2P，Grapheme-to-Phoneme，字素到音素）：

SR基本概念

语音模型：即将 sound 转为 text。

Text： a sequence of Token 长度：N，总种类数量：V
Sound： vectors sequence 长度：T，维度：d

一、Text Token

Phoneme（音位、音素）：即 a unit of sound，可以理解为发音的音标
Grapheme（字位，书写位，最多使用⭐）：即 smallest unit of a writting，比如【26个英文字母+空格+标点符号】
Word：即语言中的单词
Morpheme（字位，书写位）：即 smallest meaningful unit，比如英语单词的词根。词素是构成词的要素。词素是比词低一级的单位，词是语言中能够独立运用的最小单位，是指词在句法结构中的地位和作用而言的。
Bytes：直接用字节表示一组Text，常见的诸如 UTF-8 编码

二、声音特征 Acoustic Feature

通常以 25ms 为窗口长度，将声音讯号转为一个向量（frame，也即帧），每次窗口移动 10ms，也就是说 1s →100 frames

frame 制作方法

sample points：当声音采样率在 16KHz 时，其在 25ms 内一共有 400个 sample points，直接将这400个数字拿过来当frame即可
39-dim MFCC：一共有39维
80-dim filter bank output：一共有80维

frame 制作过程
首先，Waveform（波形）通

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。