【语音基础】语音相关的基础

本文探讨了端到端模型与传统语音识别模型的区别,强调了端到端模型的优势,介绍了强制对齐的概念及其在语音识别中的应用,同时列举了麦克风类型和常见的语音识别框架及模型。还提到了语音采样率的重要性,并推荐了厦门大学的相关课程资源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

端到端模型与传统模型的区别

传统模型(非端到端模型)

传统模型通常由不同的组件组成,例如文本处理模块、声学模型、声码器等等。 一方面不同的组件之间相互组装设计比较费力。 另一方面由于组件之间单独训练,可能会到导致每个组成部分之间的错误会叠加,从而不断放大误差。 例如统计参数语音合成(TTS)中通常有提取各种语言特征的文本前端、持续时间模型、声学特征预测模型等等。 这些组件基于广泛的领域专业知识,并且设计起来很费力。它们也是独立训练的,所以每个组成部分的错误可能会叠加。 现代TTS设计的复杂性导致在构建新系统时需要大量的工程工作。

端到端模型

端到端模型首先减轻了费力的组装设计,利用一个神经网络代替了传统模型中复杂的建模过程, 其次更容易对各种(例如音色或者语种)属性或者高级特征(例如语音中的情感)进行特征的捕获与提取。 单个模型相比于每个组件错误累加来说更加健壮,能有效减少错误的积累。

如何理解强制对齐?

强制对齐(Forced Alignment),是指给定音频和文本,确定每个单词(音素)的起止位置的过程,一般使用Viterbi解码实现。 强制对齐是语音识别的一种特殊的、简化了的情况,由于它的简单性,强制对齐通常具有较高的准确率(音素级别准确率可达90%,单词级别可达95%以上)。 使用强制对齐,我们就可以对我们收集到的标准发音的数据进行处理:根据音频和它对应的文本进行强制对齐,得到每个音标对应的片段; 对各个音标收集到的样本抽取特征并进行训练。通过对大量数据进行强制对齐,我们对每个音标得到一个模型,该模型将用于后续的打分流程。

麦克风的类型有哪些?

麦克风一般有动圈式、电容式、驻极体和最近新兴的硅微传声器,此外还有液体传声器和激光传声器。按照不同分类方式的麦克风类型如下:

  • 按声电转换原理:电动式(动圈式、铝带式),电容式(直流极化式)、压电式(晶体式、陶瓷式)、以及电磁式、碳粒式、半导体式等。

  • 按声场作用力:压强式、压差式、组合式、线列式等。

  • 按电信号的传输方式:有线、无线。

  • 按用途:测量话筒、人声话筒、乐器话筒、录音话筒等。

  • 按指向性:心型、锐心型、超心型、双向(8字型)、无指向(全向型)。

语音识别框架和模型

自监督语音特征提取:

  • wav2vec wav2vec2 hubert

语音识别:

  • wenet whisper paraformer

语音采样率

采样率数值
8k8000
11k11025
16k16000
22k22050
32k32000
44k44100
48k48000

语音识别资料

厦门大学课件:https://speech.xmu.edu.cn/2020/0630/c18207a406063/page.htm

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值