1、RGB与YUV是怎样转化的?
将一幅图像的RGB转为4:2:0的YUV图像原理:
YUV 与RGB空间的相互转换
由电视原理可知,亮度和色差信号的构成如下:
Y=0.2990 R+0.5870G+0.1140B
R-Y=0.7010R-0.5870G-0.1140B
B-Y=-0.2990R-0.5870G+0.8860B
为了使色差信号的动态范围控制在0.5之间,需要进行归一化,对色差信号引入压缩系数。归一化后的色差信号为:
U=-0.1684R-0.3316G+0.5B
V=0.5R-0.4187G-0.0813B
码电平分配及数字表达式
A.亮电平信号量化后码电平分配
在对分量信号进行8比特均匀量化时,共分为256个等间隔的量化级。为了防止信号变动造成过载,在256级上端留20级,下端留16级作为信号超越动态范围的保护带。
B.色差信号量化后码电平分配
色差信号经过归一化处理后,动态范围为-0.5-0.5,让色差零电平对应码电平128,色差信号总共占225个量化级。在256级上端留15级,下端留16级作为信号超越动态范围的保护带。
色度格式
4:2:0格式是指色差信号U,V的取样频率为亮度信号取样频率的四分之一,在水平方向和垂直方向上的取样点数均为Y的一半。
2、什么是WAV格式的音频数据?
WAV为微软公司(Microsoft)开发的一种声音文件格式,它符合RIFF(Resource Interchange File Format)文件规范,用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持,该格式也支持MSADPCM,CCITT A LAW等多种压缩运算法,支持多种音频数字,取样频率和声道,标准格式化的WAV文件和CD格式一样,也是44.1K的取样频率,16位量化数字,因此在声音文件质量和CD相差无几! WAV打开工具是WINDOWS的媒体播放器。
通常使用三个参数来表示声音,量化位数,取样频率和采样点振幅。量化位数分为8位,16位,24位三种,声道有单声道和立体声之分,单声道振幅数据为n*1矩阵点,立体声为n*2矩阵点,取样频率一般有11025Hz(11kHz) ,22050Hz(22kHz)和44100Hz(44kHz) 三种,不过尽管音质出色,但在压缩后的文件体积过大!相对其他音频格式而言是一个缺点,其文件大小的计算方式为:WAV格式文件所占容量(B) = (取样频率 X量化位数X 声道) X 时间 / 8 (字节= 8bit) 每一分钟WAV格式的音频文件的大小为10MB,其大小不随音量大小及清晰度的变化而变化。
WAV是最接近无损的音乐格式,所以文件大小相对也比较大。
常见的音频格式:
1、wave格式(*.wav):是Microsoft Windows本身提供的音频格式
2、voice格式(*.voc):dos程序和游戏中用到
3、音频交换格式(*.aif/aiff):苹果公司开发的音频格式
4、audio格式(*.au):Sun Microsystem的声音文件格式
5、MPEG音频格式(MP1/MP2/MP3/MP4/AAC):
MPEG Audio Layer-1/2/3的简称,使用知觉音频编码技术 。压缩比4:1/6~8:1/10~12:1,保持音质。
MP4压缩比更小:15:1,保持音质
AAC:属于MPEG-2规范的一部分
6、RealAudio格式(*. RA、RM、RMX):Real Networks公司的流式音频格式
7、Windows Media音频格式(*. WMA、ASF):WMA只包含音频,压缩比可达18:1,支持网络流媒体播放。 ASF支持音频、视频及其他多媒体类型,支持流媒体,压缩比比mp3高一倍。
8、MIDI格式(*.mid):记录演奏乐器的动作过程及属性,数据量很小
3、音频信号的相关知识?
音频信号的分类:
类型 | 应用样例 | 采样(KHz) | 频宽/HZ |
窄带语音 | 电话通信 | 8 | 200-3400 |
宽带语音 | 电话会议、视频会议 | 16 | 50-7000 |
数字音频广播 | 数字音频广播 | 32 | 20-15000 |
高保真立体声音频信号 | CD | 44.1 | 20-20000 |
DAT | 48 | 20-20000 |
数字音频压缩编码的必要性和可能性:
1、数字化的必要性
提高抗干扰能力;扩大音频动态范围,利用计算机处理数据;不失真地远距离传输;可以与视频、图像等多媒体信息进行多路复用已实现对媒体化和网络化。
2、压缩编码的必要性
降低传输和存储的开销
3、压缩编码的可能性
信号存在冗余:时域、频域;听觉冗余
语音编码技术及标准:
一、语音编码器的性能指标
语音质量
质量评定方法——主观评定方法
MOS:平均意见分5~1
MUSHRA:MUlti Stimulus test with Hidden Reference and Anchor :欧洲广播联盟提出的先
进测试方法100~0
数码率:反映压缩效率
算法的复杂度:运算复杂度和内存要求,编解码时的开销
编解码时延:时延<5~10ms
二、语音编码技术的分类
1、波形编码:直接对语音信号的时域波形采样值或其频域变换系数进行编码。
特点: 1)通用性好;
2)技术成熟
3)重构声音信号质量较高
4)压缩效率不高,数码率16kbps~64kbps
常见的波形编码方法:
脉冲编码调制PCM、增量调制、自适应增量调制ADM、自适应差分脉冲编码 调试ADPCM、自带编码SBC、自适应变换编码ATC等
2、参数编码
参数编码
◇其基本原理是:首先,建立语音生成的物理模
型;编码时,从波形信号中提取话音模型参数,并进
行编码;解码时,解出模型参数,并合成话音。
◇基于线性预测编码(LPC)
◇特点:
●压缩比高,码率可压缩到2kbit/s -4. 8kbit/s,甚至更低。
●算法复杂,语音虽然可以听懂,但其质量远远
低于波形编码。
●保密性能好,因此一直用在军事上。
3、混合编码
使用了合成一分析法来改进参数编码。
将波形编码和参数编码组合起来,克服了原有波形编码和参数编码的弱点,结合各自的长处,力图保持波形编码的高质量和参数编码的低码率,在4-16 kbit/s速率上能够得到高质量的合成语音