语音编码器汇总:
EVRC系列:QCELP(8kbps,13kbps)->EVRC(RCELP技术,FR 8.55Kbps,1995年在CDMA2000中替代前者)->EVRC-B(2007年替代前者)->SMV(CDMA2000 4GV中替代前者)->VMR-WB(Nokia和VoiceAge开发)
AMR系列:GSM(6.5kbps,13kbps)->AMR-NB(ACELP技术,1997年替代前者在GSM中)->AMR-WB(WCDMA)->AMR-WB+(WCDMA)->VMR->WB(FD-LTE(我分析))
MBE系列: MBE->IMBE->AMBE->AMBE+->AMBE+2->MQ-HTC
ILBC->ISAC(GIPS)
SVOPC->SILK(Skype)
Speex(Xiph)
ALCWI(Spirit DSP)
G.722(ADPCM),G.726(ADPCM),
G.723(DPCM)
G.723.1(MPC-MLQ):6.3 kbit/s, MOS 3.9
G.723.1(ACELP 6.3 kbit/s,MOS 3.62),G.728(LD-CELP),G.729(CS-CELP),G.729a(ACELP)
G.729.1(CELP + TDBWE)
EVRC-B 使用 Prototype Pitch Period (PPP) 方法编码stationary voice frames
使用 Noise Excitation Linear Prediction (NELP) 编码efficient coding of unvoiced or noise frames.
欧洲数字电话标准(ETSI制定),移动电话标准
北美数字电话标准
日本数字蜂窝电话标准
保密通话标准(美国国防部制定DoD)
卫星电话标准(国际海事卫星公司(INMARSAT))
编码标准 | IMBE |
AMBE |
年代 | 1990 | 1997 |
比特率/kbps | 4.15 | 3.6 |
质量 | ||
延时/ms | 78.75 |
ITU-T [G.711, G711.1, G.722, G.722.1, G.722.2, G.723.1A, G.726, G.728, G.729/A/B/D/E/G, and G.729.1]
GSM/ETSI/CDMA/Bluetooth [AMR-NB, AMR-WB, AMR-WB+, EVRC-A, EVRC-B, EVRC-C, and SBC]
Open Source [iLBC and Speex]
- Audio codecs
IMA-ADPCM, MP3, EAAC+, Microsoft® RTA, WMA Pro, Ogg Vorbis, and FLAC - Video codecs
H.264 Encoder/Decoder - Miscellaneous modules
Voice activity detection (VAD), comfort noise (CNG), packet loss concealment (PLC), DTMF generation/detection, etc. 语音压缩编码 (G.711, G.723, G.726, G.729,AMR)
各种各样的编解码在各种领域得到广泛的应用,下面就把各种codec的压缩率进行一下比较,不正确之处望各位同行指正。
Speech codec:
现主要有的speech codec 有: G.711, G.723, G.726 , G.729, ILBC
QCELP, EVRC, AMR, SMV
主要的audio codec 有:
real audio, AAC, AC3, MP3, WMA, SBC等,各种编解码都有其应用的重点领域。
本文主要对speech codec相关指标进行总结:
ITU 推出G.7XX系列的speech codec, 目前广泛应用的有:G.711,G.723, G.726, G.729. 每一种又有很多分支,如G.729就有g.729A, g.729B and g.729AB
G.711:
G.711就是语音模拟信号的一种非线性量化,细分有二种:G.711 A-law and G.711 u-law.不同的国家和地方都会选取一种作为自己的标准. G.711 bitrate 是64kbps. 详细的资料可以在ITU 上下到相关的spec,下面主要列出一些性能参数:
G.711(PCM方式:PCM=脉码调制 :Pulse Code Modulation)
• 采样率:8kHz
• 信息量:64kbps/channel
• 理论延迟:0.125msec
• 品质:MOS值4.10
G.723.1:
G.723.1是一个双速率的语音编码器,是 ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法;
其目标应用系统包括H.323、H.324等多媒体通信系统,目前该算法已成为IP电话系统中的必选算法之一;编码器的帧长为30ms,还有7.5ms的前瞻,编码器的算法时延为37.5ms;编码器首先对语音信号进行传统电话带宽的滤波(基于G.712),再对语音信号用传统8000-Hz速率进行抽样(基于G.711),并变换成16 bit线性PCM码作为该编码器的输入;
在解码器中对输出进行逆操作来重构语音信号;高速率编码器使用多脉冲最大似然量化(MP-MLQ),低速率编码器使用代数码激励线性预测(ACELP)方法,编码器和解码器都必须支持此两种速率,并能够在帧间对两种速率进行转换;
此系统同样能够对音乐和其他音频信号进行压缩和解压缩,但它对语音信号来说是最优的;采用了执行不连续传输的静音压缩,这就意味着在静音期间的比特流中加入了人为的噪声。除了预留带宽之外,这种技术使发信机的调制解调器保持连续工作,并且避免了载波信号的时通时断。
G.726:
G.726有四种码率:, 32, 24, 16 kbit/s Adaptive Differential Pulse Code Modulation (ADPCM),最为常用的方式是 32 kbit/s,但由于其只是 G.711速率的一半,所以可将网络的可利用空间增加了一倍。G.726具体规定了一个 64 kbpsA-law 或 µ-law PCM 信号是如何被转化为40, 32, 24或16 kbps 的 ADPCM 通道的。在这些通道中,24和16 kbps 的通道被用于数字电路倍增设备(DCME)中的语音传输,而40 kbps 通道则被用于 DCME 中的数据解调信号(尤其是4800 kbps 或更高的调制解调器)。
G.726 encoder 输入一般都是G.711 encoder的输出:64kbps A-law or u-law.其算法实质就是一个ADPCM, 自适应量化算法。
G.729:
G..729语音压缩编译码算法
采用算法是共轭结构的代数码激励线性预测(CSACELP),是基于CELP编码模型的算法;能够实现很高的语音质量(长话音质)和很低的算法延世;算法帧长为10ms,编码器含5ms前瞻,算法时延15ms;其重建语音质量在大多数工作环境下等同于32kb/s的ADPCM(G.726),MOS分大于 4.0;编码时输入16bitPCM语音信号,输出2进制比特流;译码时输入为2进制比特流,输出16bitPCM语音信号;在语音信号8KHz取样的基础上,16bit线性PCM后进行编码,压缩后数据速率为8Kbps;具有相当于16:1的压缩率。
G.729系列在当前的VOIP得到广泛的应用,且相关分支较多,可以直接从ITU网上得到source code 和相关文档。
G.729(CS-ACELP方式:Conjugate Structure Algebraic Code Excited Linear Prediction)
• 采样率:8kHz
• 信息量:8k