音视频相关知识总结

1、RGBYUV是怎样转化的?


   

将一幅图像的RGB转为4:2:0的YUV图像原理:

YUV RGB空间的相互转换

由电视原理可知,亮度和色差信号的构成如下:

Y=0.2990 R+0.5870G+0.1140B

R-Y=0.7010R-0.5870G-0.1140B

B-Y=-0.2990R-0.5870G+0.8860B

为了使色差信号的动态范围控制在0.5之间,需要进行归一化,对色差信号引入压缩系数。归一化后的色差信号为:

U=-0.1684R-0.3316G+0.5B

V=0.5R-0.4187G-0.0813B

码电平分配及数字表达式

A.亮电平信号量化后码电平分配

在对分量信号进行8比特均匀量化时,共分为256个等间隔的量化级。为了防止信号变动造成过载,在256级上端留20级,下端留16级作为信号超越动态范围的保护带。

B.色差信号量化后码电平分配

色差信号经过归一化处理后,动态范围为-0.5-0.5,让色差零电平对应码电平128,色差信号总共占225个量化级。在256级上端留15级,下端留16级作为信号超越动态范围的保护带。

色度格式

4:2:0格式是指色差信号U,V的取样频率为亮度信号取样频率的四分之一,在水平方向和垂直方向上的取样点数均为Y的一半。

 

 

2、什么是WAV格式的音频数据?

 

   WAV微软公司Microsoft)开发的一种声音文件格式,它符合RIFF(Resource Interchange File Format)文件规范,用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持,该格式也支持MSADPCMCCITT A LAW等多种压缩运算法,支持多种音频数字,取样频率和声道,标准格式化的WAV文件和CD格式一样,也是44.1K的取样频率,16位量化数字,因此在声音文件质量和CD相差无几! WAV打开工具是WINDOWS媒体播放器。

    通常使用三个参数来表示声音,量化位数,取样频率和采样点振幅。量化位数分为8位,16位,24位三种,声道有单声道和立体声之分,单声道振幅数据为n*1矩阵点,立体声为n*2矩阵点,取样频率一般有11025Hz(11kHz) 22050Hz(22kHz)44100Hz(44kHz) 三种,不过尽管音质出色,但在压缩后的文件体积过大!相对其他音频格式而言是一个缺点,其文件大小的计算方式为:WAV格式文件所占容量(B) = (取样频率 X量化位数X 声道) X 时间 / 8 (字节= 8bit) 每一分钟WAV格式的音频文件的大小为10MB,其大小不随音量大小及清晰度的变化而变化。

WAV是最接近无损的音乐格式,所以文件大小相对也比较大。

 

常见的音频格式:

1wave格式(*.wav):是Microsoft Windows本身提供的音频格式

2voice格式(*.voc):dos程序和游戏中用到

3、音频交换格式(*.aif/aiff):苹果公司开发的音频格式

4audio格式(*.au):Sun Microsystem的声音文件格式

5MPEG音频格式(MP1/MP2/MP3/MP4/AAC):

     MPEG Audio Layer-1/2/3的简称,使用知觉音频编码技术 。压缩比4:1/6~8:1/10~121,保持音质。

     MP4压缩比更小:151,保持音质

     AAC:属于MPEG-2规范的一部分

6RealAudio格式(*. RARMRMX):Real Networks公司的流式音频格式

7Windows Media音频格式(*. WMAASF):WMA只包含音频,压缩比可达181,支持网络流媒体播放。 ASF支持音频、视频及其他多媒体类型,支持流媒体,压缩比比mp3高一倍。

8MIDI格式(*.mid):记录演奏乐器的动作过程及属性,数据量很小

 

 

3、音频信号的相关知识?

音频信号的分类:

 

    

类型

应用样例

采样(KHz

频宽/HZ

窄带语音

电话通信

8

200-3400

宽带语音

电话会议、视频会议

16

50-7000

数字音频广播

数字音频广播

32

20-15000

高保真立体声音频信号

CD

44.1

20-20000

DAT

48

20-20000

     

 

 数字音频压缩编码的必要性和可能性:

 

1、数字化的必要性

提高抗干扰能力;扩大音频动态范围,利用计算机处理数据;不失真地远距离传输;可以与视频、图像等多媒体信息进行多路复用已实现对媒体化和网络化。

2、压缩编码的必要性

降低传输和存储的开销

3、压缩编码的可能性

信号存在冗余:时域、频域;听觉冗余

 

语音编码技术及标准:

  

    一、语音编码器的性能指标

 

 

    语音质量

    质量评定方法——主观评定方法

    MOS:平均意见分5~1

    MUSHRAMUlti Stimulus test with Hidden Reference and Anchor :欧洲广播联盟提出的先   

    进测试方法100~0

    数码率:反映压缩效率

    算法的复杂度:运算复杂度和内存要求,编解码时的开销

编解码时延:时延<5~10ms

 

二、语音编码技术的分类

 

 

1、波形编码:直接对语音信号的时域波形采样值或其频域变换系数进行编码。

特点: 1)通用性好;

     2)技术成熟

3)重构声音信号质量较高

  4)压缩效率不高,数码率16kbps~64kbps

常见的波形编码方法:

脉冲编码调制PCM、增量调制、自适应增量调制ADM、自适应差分脉冲编码      调试ADPCM、自带编码SBC、自适应变换编码ATC

 

 

2、参数编码

参数编码

    ◇其基本原理是:首先,建立语音生成的物理模

型;编码时,从波形信号中提取话音模型参数,并进

行编码;解码时,解出模型参数,并合成话音。

    ◇基于线性预测编码(LPC)

    ◇特点:

    ●压缩比高,码率可压缩到2kbit/s -4. 8kbit/s,甚至更低。

    ●算法复杂,语音虽然可以听懂,但其质量远远

低于波形编码。

    ●保密性能好,因此一直用在军事上。

 

3、混合编码

    使用了合成一分析法来改进参数编码。

将波形编码和参数编码组合起来,克服了原有波形编码和参数编码的弱点,结合各自的长处,力图保持波形编码的高质量和参数编码的低码率,在4-16 kbit/s速率上能够得到高质量的合成语音

 

 

 

 

 

 

   

   


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值