基于线性预测的语音编码原理解析

早期的音频系统都是基于声音的模拟信号实现的,在声音的录制、编辑和播放过程中很容易引入各种噪声,从而导致信号的失真。随着信息技术的发展,数字信号处理技术在越来越多领域得到了应用,数字信号更是具备了易于存储和远距离传输、没有累积失真、抗干扰能力强等等,信号和信号处理都往数字化发展。为了使得数字音频可以被高效地压缩存储并高品质地还原,数字音频的编码技术就变成至关重要的一个部分了。本篇文章会介绍当今的音频的编码器(传统算法非深度学习)的两大主流阵营之一的基于线性预测的语音编码器的原理。

01 音频的编码器分类及简介

比较流行基于传统算法的音频的编码器基本可以分成两个大的类别:

Audio Codec(音频编码器): aac, mp3, ogg, celt(inside of opus) …

Speech Codec(语音编码器): ilbc, isac, silk(inside of opus) …

而这两种编码器类型基于完全不同的编码原理,Audio Codec (音频编码器)利用了人类听觉感知系统的特性来研究音频编码的方法,可以对较多音源,复杂信号进行高品质的编码。而Speech Codec (语音编码器)是以语音生成模型为基础,可以对单个音源(人或者一些乐器的发音器官单元)进行更低码率的高效编码。
为什么已经有了可以对较多音源,复杂信号进行高品质编码的Audio Codec,还需要研究和发展Speech Codec呢?
因为应用领域的需求完全不一样。Audio Codec的应用领域更多和音乐有关,研究的是在保证尽量小的感知失真的前提下,对声音进行压缩编码。早期mp3想要实现高品质所需要的编码码率还是比较高的,压缩比并不高。而早期的数字电信系统的带宽有限,如何可以用尽量小的带宽实现可以还原出清晰的语音则成了Speech Codec的任务。更多在8kHz和16kHz采样率下实现较低码率的编码。

02 语音的发声模型和特性

既然需要设计一款专门针对语音的编码器,那肯定要先研究一下语音的一些特性。
1. 人的发声模型
图片
总的来说,人的发声模型可以分成三个部分:

  • 由肺和气管产生生气源
  • 喉和声带组成声门
  • 咽腔,口腔,鼻腔等组成声道

人的发声过程基本过程可以这样描述:由肺部挤压产生流动高压气体,通过气管,经过喉咙,喉咙控制相关软骨组织和肌肉组织(其中最为重要为声道)进行复杂运动,最终声带在控制下进行合拢或者分离,最终产生了声音的激励,再经过咽腔、口腔、鼻腔共鸣最终形成声音。

2. 语音信号的一般分类
人发出不同的声音时,语音激励和声道的情况也是完全不同的,发出的声音基本可以分类为两种类型:
浊音:空气流经过声带时,声带呈紧绷状态,并产生张弛振动,即声带进行周期性的开启和闭合,空气流经过声带后形成

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值