数码语音实验研究

声音常识

人类听力音频上限约20,000HZ

采样定律

设采样频率为FS,则其可以再现的上限频率为:F=FS/2

 

在数字音频领域,常用的采样率有:


    * 8,000 Hz -
电话所用采样率, 对于人的说话已经足够;
    * 11,025 Hz

    * 22,050 Hz -
无线电广播所用采样率;
    * 32,000 Hz - miniDV
数码视频 camcorderDAT (LP mode)所用采样率;
    * 44,100 Hz -
音频 CD, 也常用于 MPEG-1 音频(VCD, SVCD, MP3)所用采样率;
    * 47,250 Hz - Nippon Columbia (Denon)
开发的世界上第一个商用 PCM 录音机所用采样率;
    * 48,000 Hz - miniDV
、数字电视、DVDDAT、电影和专业音频所用的数字声音所用采样率;
    * 50,000 Hz -
二十世纪七十年代后期出现的 3M Soundstream 开发的第一款商用数字录音机所用采样率;
    * 50,400 Hz -
三菱 X-80 数字录音机所用所用采样率;
    * 96,000
或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、BD-ROM(蓝光盘)音轨、和 HD-DVD (高清晰度 DVD)音轨所用所用采样率;
    * 2.8224 MHz - SACD
索尼 飞利浦 联合开发的称为 Direct Stream Digital 1 sigma-delta modulation 过程所用采样率。

常用压缩算法

Codec            Sampling
G.       Coding     Rate
Number   Method    (kHz)   Bit Rates (kBps)
G.711    Mu-Law PCM   8    64
G.711    A-Law PCM    8    64
G.721    ADPCM        8    32
G.722    ASPCM        7    48, 56, 64
G.722.1  MLT         16    24, 32
G.722.2  ACELP       16    9 bit rates (6.6-23.85)
G.723    (withdrawn)
G.723.1  MP-MLQ       8    6.3
G.723.1  ACELP        8    5.3
G.726    ADPCM        8    16, 24, 32, 40, 64
G.727    ADPCM        8    16, 24, 32, 40, 64
G.728    LD-CELP      8    16
G.729    CS-ACELP     8    8

 

长话质量语音研究

长话语音指采样率为8000每秒的语音, 这是网络语音常用标准, 无特殊说明,本研究只针对单Channel的情形,研究表明样本宽度为8Bits,语音质量差,背景噪音大, 16Bits语音则无此现象,无特别说明,本研究只研究16Bits语音。

 

研究手段:采用支持无锁循环录/放缓冲区的Recorder/Player作为研究手段,该工具可调整语音帧尺寸,循环缓冲区尺寸等参数

语音材料:新闻朗读

录音帧尺寸与录音缓冲区尺寸对语音质量的影响

测试表明,录音帧尺寸(AF)和录音缓冲区尺寸(CWIN)的乘积对录音质量有影响,

测试表明,AF*CWIN<20ms时,语音难以听清,而当录音缓冲时间AF*CWIN=20ms时,语音清晰,但略有不平滑感,有一点背景杂音,但为保持流畅的录音效果,应保持CWIN>=2,

测试表明,当AF*CWIN=40ms,CWIN=2时,录音流畅平滑。

 

放音帧尺寸与放音缓冲区尺寸对语音质量的影响

测试表明,放音帧尺寸(AF)和放音缓冲区尺寸(CWIN)对放音质量影响较大。

CWIN=1时,无论AF大小,语音总不连续,在语音帧边界能听出明显变化;

CWIN=2时,AF=40时语音基本流畅,但能听出不平滑,有背景杂音; 而当AF>=50时,语音流畅;

测试表明,在相同AF*CWIN积时,较小的AF将有着更好的语音质量,最小AF*CWIN=60msAF=1时,语音流畅,但当CWIN变小时,要达到相同质量的语音,AF*CWIN需较大。

放音帧尺寸与录音帧尺寸无关,即无论录音帧尺寸多少,放音时可以以任意自己喜欢的语音帧大小播放。

AF*CWIN=64(CWIN=4)时的语音质量接近AF*CWIN=60(CWIN=60),因此,播放缓冲区尺寸CWIN=4是相对合理的取值。

 

语音帧丢失对语音质量的影响

均匀丢帧

测试条件:调整适当的CWIN尺寸,使无丢帧条件下放音质量良好。

测试表明,丢帧将引起噪音增加,声音模糊不清,语速加快,丢帧率越高,这些现象将越严重。在合适的范围内,语音帧尺寸越大,丢帧越易引起声音模糊不清(过大的语音帧,e.g.>500ms,丢帧将引起语音片断缺失,适成可感知的不连贯)。

 

 

Loss Percentage(%)

1

5

10

20

25

33

50

AF=5

G

G

Y

Y

Y

Y

R

AF=20

G

G

Y

Y

Y

Y

R

AF=30

G

G

Y

Y

Y

R

R

AF=50

G

Y

Y

Y

R

R

R

AF=100

G

Y

R

R

R

R

R

 

语音质量等级:

Green 无明显可觉查的质量下降(噪音不明显,语音总体清晰自然,语速无明显异常)

Yellow: 音质下降,但可以听清(噪音明显,声音欠流畅,但仍清晰可分辨,语速偏快)

Red: 音质下降严重,模糊不清(噪音大,声音变调,语速太快,模糊不清)

 

结论:语音帧尺寸越大,对丢帧将敏感,帧尺寸达到50MS时,25%的丢帧将引起声音模糊不清,而在语音帧尺寸为20MS时,该现象可被推迟到33%以上的丢帧率才会发生。

 

均匀丢帧的空白帧替换

用空白帧替换丢失帧,将不会出现语速随丢帧率而变化的现象,其语音质量评估如下表所示:

 

 

Loss Percentage(%)

1

5

10

20

25

33

50

AF=5

G

G

Y

Y

Y

Y

Y

AF=20

G

G

Y

Y

Y

Y

R

AF=30

G

G

Y

Y

Y

R

R

AF=50

G

Y

Y

Y

R

R

R

AF=100

G

Y

R

R

R

R

R

                           

Green 无明显可觉察的质量下降

Yellow: 音质下降,但可以听清

Red: 音质下降严重,模糊不清

 

用空白帧替换丢失帧,可保持语速的恒定,此时丢包率对语音质量的影响不再表现在语速上,而是表现在噪音水平和音调上,较高的丢帧率表现为噪音水平较高,语音变调等,小帧尺寸(如AF=5ms)时,可提高语音在高丢帧率(如50%)时的可分辩性。但当AF尺寸较大时,空白帧替换并不能提高语音在高丢帧率情况下的可分辩性,仅能保持语速的恒定。

 

以下为文献对上述方法的定义与描述:

another simple alternative is replacing the loss packets with "silence",   that is with zero packets. This technique is called- Silence Substitution ,Zero stuffing, and is especially effective for speech signals with packet length of 4[msec] or less and with a loss rate of no more than 2%.

The performance of this technique, deteriorate rapidly as the packet is getting larger. And so the sound quality of a signal with 40[msec] packet length for example, is unacceptable.

Despite all that, due to its implementation simplicity, this technique is widely common.

帧能量法

语音帧能量的算法:将一个语音帧中的所有样本值取绝对值后相加,其和被作为语音帧能量(AFE)。计算每个输出帧的能量值,若低于设定值,则丢弃,同样可选择直接丢弃,或用空白帧替换。

测试表明,直接丢弃方式在相同丢帧率的情况下,AFE法语音更加模糊不清,但在空白帧替换方式下,语音质量明显较均匀丢帧算法好。

 

 

 

 

Loss Percentage(%)

1

5

10

20

25

33

50

AF=5

G

G

G

G

G

G

Y

AF=20

G

G

G

G

G

Y

Y

AF=30

G

G

G

G

G

Y

Y

AF=50

G

G

G

G

G

Y

R

AF=100

G

G

G

Y

Y

R

R

 

结论:在采用空白帧替换时,基于帧能量的丢帧算法较均匀丢帧算法有着明显的质量改善,即是在丢帧率很高,整体语音质量不佳的情况下,仍能保持主音部分的较好音质。(2007-12-23)

 

Packet Loss Concealment之重放最后一帧

对于均匀丢帧,重放最后一帧,可取得相当好的效果,在丢包率高达50%时,仍可听清,只是噪音较大; 较空白帧替换法效果好很多;

但对于帧能量法,重放最后一帧的效果则非常差,空白帧替换法效果要好得多

抖动对语音质量的影响

语音帧比需要的时刻早到达不会影响播放质量,因此,这里抖动特指比预定时间晚到达的延迟抖动,这更能模拟Internet上实时语音传输的情况――即语音采集和语音播放都为实时过程。

 

AF=5, CWIN=20, delay=0-15ms (3AF) -- 无明显语音质量下降

                         15-20ms (4AF)    -- 语音质量下降明显,但仍可听清

                           >20ms    --难以听清

AF=20, CWIN=4delay=(0-35ms) (1.75AF) --无明显语音质量下降

                          35-60ms  (3AF)    --语音质量下降明显,但仍可听清

                          >60ms            --难以听清

 

AF=40, CWIN=2, delay=0-60ms (1.5AF)-- 无明显语音质量下降

                 60-100ms (2.5AF)--语音质量下降明显,但仍可听清

                  >100ms --难以听清

 

,CWIN尺寸可改善Jitter对音质的影响,但不足以从根本上改善音质。

 

结论:随机抖动在2*AF以下时,音质通常无明显下降; 2-3*AF时,可听清,大于3*AF时则音质下降厉害,常听不清――随着AF增大,这种倍率关系则趋向减小。较大CWIN对降低抖动对音质影响都有好处,但不足以从根本上改善音质。

 

Inter-Leave分帧语音质量评估

8000每秒的标准PCM样本按等间距取样,其它标准样本则复制成该样本值,例如,标准样本序列如下:0,1,2,3,4,5,6,7,…, Inter-Leave间距为2,则生成的Inter-Leave样本序列如下:0,0,2,2,4,4,6,6,…, Inter-Leave间距为3,则生成的Inter-Leave样本序列如下:0,0,0,3,3,3,6,6,6,…

 

Inter-Leave 间距=2时,语音可听清,略有变调,有一定的伴生噪音

                       =3时,勉强听清,变调严重,伴生噪音大

                       =4时,较3更恶化

=5时,基本完全听不清,语音完全淹没在伴生噪音中

 

Inter-Leave的结果相当于降低了采样率,但该算法用于语音传输时可将标准PCM序列间隔采样到不同的Inter-Leave帧,在传输情况良好时,接收端可将多个Inter-Leave帧还原成原始的帧,保持语音质量,若传输出现拥塞,则可通过丢弃部分Inter-Leave帧的办法降低带宽占用,同时最大限度保持语音质量。

上述测试表明:当Inter-Leave间距大于2时(相当于采样频率小于4000HZ)时,语音质量基本不可接受。因此,有意义的Inter-Leave传输分帧是分两帧。

 

 

人耳对音频的感受能力

16bit 8000采样率的正弦波PCM生成器测试得到:人耳通过普通耳机能感受到的音频下限越30HZ左右,此时,振幅接近上限(取30000)时,能感受到有振动存在。

60HZ,有明显类似于音箱交流声的声音; 240HZ,则感觉声音开始明亮;480HZ,则有哨音; 960HZ,则如电台报时般清脆的声音;

 

16bit 44100采样率的正弦波PCM生成器测试得到: 人耳通过耳机能感受的音频上限约15000HZ左右,

听出来象是“声音”的频率区间则在:[50HZ, 15000HZ]之间。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值