目录
- 1.概述
- 2.数字音频编码
- 3.数字图像与视频压缩编码
- 4.多媒体通信网络
- 5.多媒体流式应用系统与终端
- 6.多媒体视频会议应用系统与终端
1.概述
1.1 五种媒体的概念
1 感觉媒体
能直接作用于人的感官,使人产生感觉的媒体,分为静态(照片)和动态(视频)两类。
2 表示媒体
计算机对信息的表示方式的描述;
为了能有效地加工、处理、存储和传输感觉媒体信息;
对感觉媒体的编码(表示成数字信号,并压缩)
多媒体通信对表示方法的要求: 存储量尽量小,但尽可能不失真。
注意: 多媒体通信中的媒体特指表示媒体
3 显示媒体
进行信息输入和输出的媒体(表现和获取信息的物理设备);
通信中电信号和感觉媒体之间转换所用的媒体
多媒体通信对显示媒体的要求: 失真控制在一定范围内。
4 存储媒体
存储表示媒体信息的媒体(物理介质),以便计算机随时调用或供其他终端远程调用。
多媒体通信对存储的要求: 足够的容量,迅速的存取,足够的带宽。
5 传输媒体
承载信息,将信息进行传输的媒体;
用于将表示媒体信息从一地传输到另一地的物理实体
多媒体通信对传输媒体的要求: 足够的带宽、同步、误码率低。
特点: 传输信息的物理载体
1.2 五种媒体间的关系、信息传递过程中五种媒体间的转换过程。
几种媒体的关系:
信息传递过程:
1.3 多媒体通信系统的三个特点
注意: 多媒体通信系统的集成性、交互性、同步性三个特征必须并存,缺一不可
1 集成性
1. 多种媒体的集成:
多媒体通信系统能够处理、存储和传输多种表示媒体,并能捕获并显示多种感觉媒体,因此多媒体通信系统集成了多种编译码器,多种感觉媒体的显示方式,能与多种传输媒体接口,并且能与多种存储媒体通信。
2. 多种业务的集成:
电视信号的处理、电子邮件、信息查询等等。
2 交互性
交互性包括人机交互和人与人的交互。
3 同步性
同步性是指在多媒体通信终端上所显示的文字、声音和图像是以在时空上的同步方式工作的。
1.4 多媒体通信涉及的关键技术
1 多媒体数据压缩技术
多媒体通信中最关键的技术
多媒体信息 (数据量=信息量+冗余量
) 中包含大量冗余的信息,把这些冗余的信息去掉的过程即为压缩。
解压缩后信息恢复质量是评价压缩好坏的主要方面
2 多媒体数据库及检索技术
3 多媒体网络技术
能够满足多媒体应用需要的通信网络必须具有高带宽、可提供服务质量的保证、实现媒体同步等特点。
代表:以软交换为核心的NGN网络
4 多媒体信息存储技术
要求:存储设备的存储容量足够大,还要保证存储设备的速度要足够快,带宽要足够宽。
5 多媒体终端技术
多媒体通信终端功能:采集、处理、显示及数据同步等功能。
多媒体通信终端的特点:集成性、同步性、交互性。
1.5 多媒体通信的体系结构
多媒体通信的体系结构模式:
1 传输网络
体系结构的最底层,它为多媒体通信的实现提供了最基本的物理环境。
2 网络服务平台
该层主要为用户提供各类网络服务,使用户能直接使用这些服务内容,而无需知道底层传输网络是怎么提供这些服务的,即网络服务平台的创建使传输网络对用户来说是透明的。
3 多媒体通信平台
该层主要提供其通信支援(如多媒体信息处理),并支持各类多媒体的应用。
1.6 多媒体通信的业务类型
1.7 多媒体通信常见的应用
一般应用:指人们常见的一些多媒体应用。如多媒体信息检索。
特殊应用:指业务性较强的某些多媒体应用。如电子邮购、远程医疗。
多媒体通信系统及应用:
多媒体信息检索与查询系统
视频点播系统
视频会议系统
远程教育系统
多媒体即时通信系统
2.数字音频编码
2.1 声音信号概念及特点
声音: 通过介质传播的一维的连续波,这种连续性表现在两个方面:一是时间上的连续性,二是幅度上的连续性。
衡量分析:
- 产生和传播:可以用很具体的物理量来进行说明,是客观的描述。
- 分析:人耳和大脑对声音的处理过程是一个主观的过程,是和人的心理及生理特性有关的。
2.2 描述声音的主客观参数
衡量参数:
- 主观参数: 响度(强弱)、音调、音色(人耳听觉三要素)
- 客观参数: 声压或声强(幅度)、频率、波形(频谱结构)
声音的强弱~幅度的大小
音调的高低~频率的高低
音色~叠加在基波上的谐波有关(谐波越丰富,音色越好)
2.3 人耳听觉特性
1 基本参数
人耳能感受到的声音频率范围:20 Hz~20 kHz
人的发音器官能发出的声音频率:80 Hz~3400Hz
多数人的语音信号能量主要集中的频率:500Hz~1 kHz
人的听觉器官能感知的声音幅度:0dB ~ 120dB
人耳的听阈:0db
人耳的痛阈:120db
只保留400 Hz~6 kHz频率范围的语音,人耳就可以完全听清音节
听觉阈值电平:听觉阈值电平随声音频率的不同而不同。不同的个人听觉阈值电平也不同。大多数人对2KHz~5KHz之间的声音最敏感。
声压级(分贝):20×lgP/P0
P:声压
P0:对1000HZ声音人耳刚能听到的最低声压,P0=0.00002Pa
2 掩蔽效应
一个频率声音的听阈由于另一个声音的存在而上升的现象称为掩蔽
“掩蔽效应”的实质是掩蔽声的出现使人耳听觉的等响曲线的最小可闻阈得到提高。由于掩蔽声音的存在,要听到被掩蔽声音,被掩蔽声音的听阈必须提高一定的分贝数,这个提高的分贝数就称为一个声音对另一个声音的掩蔽值。提高后的听阈称为掩蔽阈
利用人耳对声音的掩蔽效应,可用有用的声音信号去掩蔽那些无用的声音信号
只需将那些对人没有用的声音的声压级降低到掩蔽域之下就可,完全没必要花力气彻底消除对人无用的声音信号。MPEG音频编码中,利用人耳听觉的掩蔽效应来实现高效率的数据压缩
人耳可以接收到的低频信息高于高频信息。在低频区,几Hz的差异都可以分辨出来,而在高频区,必须几百Hz的差别才能分辨出来
频域掩蔽: 较强的声音信号掩蔽掉,临界频段中同时出现的较弱信号。
时域掩蔽: 时间上相邻的声音之间也有掩蔽现象。因为大脑处理导入的信息需要花费一定的时间。
2.4 三类音频编码方法
1 概念
波形编码: 基于语音信号波形的数字化,表示音频信号的波形。
应用:脉冲编码调制(PCM)
语音信号数字化过程:抽样→量化→编码
语音信号数字化参数:采样频率(fs>=2fmax)、量化精度(编码比特数或位深度)、声道数(声波数据个数)。
参数编码: 通过构造发声的模型,提取特征参量进行量化编码。
混合编码: 在参数编码的基础上对信号激励源进行了改进,将波形编码与参数编码结合起来。
2 特点
波形编码:
优点:实现简单、保真度好、计算量不大、适应性强等
缺点:压缩程度不是很高,实现的编码速率比较高
参数编码:
优点:编码后速率低,压缩率很大
缺点::计算量大、保真度欠佳
混合编码:
特点:兼有波形编码的高质量和参数编码的低速率
3 码率的计算
声音的码率(编码速率/比特率):每秒记录音频数据所需要的比特值,通常以kbps(千比特/秒)为单位。
声音未经压缩时的码率:声音的码率=采样频率×量化精度×声道数
某个音频信号所需存储容量:存储容量=播放时间×声音码率÷8(字节)
案例:CD唱片的采样频率是44.1kHz,量化精度为16位,声道数为2(立体声),那么,根据上式计算出每分钟声音的数据量:
44100×16×2×60/8≈10.09MB
波形编码的比特率一般在16Kbit/s至64 Kbit/s之间,数码率低于32 Kbit/s的时候音质明显降低,16 Kbit/s时音质就非常差了。
2.5 分量编码
框图:
1 差值脉冲编码调制(DPCM)
对相邻样值的差值进行量化编码,差值比较小,可以为其分配较少的比特数,进而起到了压缩数码率的目的。
对当前样值完整的预测值表达式:
差分脉冲编码调制就是对上面的一系列差值进行量化编码,再进行存储或传输,由于话音信号相邻样值之间有很强的相关性,所以预测值与实际值是很接近的。
DCPM实现压缩编码的原理: 由预测值得到当前值的差值。差分脉冲编码调制就是对上面一系列差值进行量化编码,再进行存储或传输。
由于话音信号相邻值之间有很强的相关性,所以预测值与实际值很接近,其差值很小,也就可以用比较少的比特数来进行编码表示,进而起到压缩编码的目的。在接收端或在对数据进行回放时,可用类似的过程重建原始数据。
2 自适应差分脉冲编码调制(ADPCM)
为了进一步提高编码的性能, 将自适应量化器和自适应预测器结合在一起用于DPCM之中, 从而实现了自适应差分脉冲编码调制(ADPCM)。
对比DPCM,预测系数与量化间距发生自适应改变
ADPCM实现压缩编码的原理: 将自适应量化器和自适应预测器结合在一起用于DPCM中,从而实现了自适应差分脉冲编码调制(ADPCM)。其中量化阶距正比于量化器输入信号的方差,预测系数随输入信号的变化而变化,从而进一步提高了编码的性能。
3 线性预测编码LPC
对声道模型参数ai、增益控制G、清浊音判决u/v、基音周期Tp进行了量化编码
4 子带编码
可将输入信号用某种方法划分成不同频段上的子信号,根据各子信号的特性,分别编码。
比如, 对语音信号中能量较大, 对听觉有重要影响的部分(如500~800 Hz频段内的信号)分配较多的码字, 对次要信号(如话带中大于3 kHz的信号)则分配较少的码字。
子带编码的原理:
将输入信号用某种方法划分成不同频段上的子信号,根据各子信号的特性,分别编码。例如:一些重要的/能量较集中的信号分配更多码字,对一些不重要/能量较少的信号分配更少的码字。
子带编码的优点:
- 对不同的子带分配不同的比特数可以很好控制各个子带的量化电平数及重建信号时的量化误差方差值,进而获得更好的主观听音质量。
- 由于各个子带相互隔开,是各个子带的量化噪声也相互独立,互不影响,量化噪声被束缚在各自的子带内。这样,某些输入电平比较低的子带信号不会被其他子带的量化噪声所淹没。
- 子带划分的结果,是各个子带的采样频率大大的降低
5 矢量量化编码(VQ)&感知编码
矢量量化编码:
基本原理:用码书中与输入矢量最匹配的码字的索引(下标),代替输入矢量进行传输与存储。
传输内容:对应每个矢量的下标
矢量编码通过传输和存储码字的下标来实现数据的压缩。
三大技术(与发送电报类比):
- 码书设计(类似电报号码本)
- 码字搜索(类似根据所发汉字查电报号码本)
- 码字索引(下标)分配(类似用来发送的与汉字对应的号码)
感知编码:
理论基础:基于人耳的闻域、临界频段和掩蔽效应
听觉阈值:人能听到声音取决于声音的频率以及声音的幅度是否高于这一频率下的听觉阈值。听觉阈值也会随着声音频率变换有所不同。编码时去掉阈值以外的电平就相当于对数据进行了压缩
临界频段:人耳对不同频段声音的反应灵敏度是有差异的,在低频段对几赫兹的声音差异都能分辨,而在高频段的差异要达到几百赫兹才能分辨。编码时要对低频段进行精细的划分,而对高频段的划分可以粗略
掩蔽效应:
频域掩蔽:在频域,一个强音会掩蔽掉与之接近的弱音,掩蔽特性与掩蔽音的强弱、掩蔽音的中心频率以及掩蔽音与被掩蔽音的频率相对位置有关。
时域掩蔽:掩蔽效应发生在掩蔽音与被掩蔽音不同时出现时,也称为异时掩蔽。
在编码时,对被掩蔽的弱音不必进行编码,从而达到数据压缩的目的。在感知编码中使用了心理模型。
感知编码的实现:
- 利用人耳听觉的心理声学特性(包括频域掩蔽特性和时域掩蔽特性)。只记录那些能够被人耳感觉到的声音,从而达到压缩数据量的目的。
- 感知编码的理论基础基于人耳的闻阈、临界频段和掩蔽效应
- 编码时只针对人耳闻阈之内的信号进行编码,对被屏蔽的弱音不编码,从而达到压缩数据的目的。
6 音频压缩编码标准的两个系列
G系列音频压缩编码标准( ITU (国际电信联盟) -T )
MPEG音频编码标准
由ISO/IEC (国际标准化组织)制定,是国际上公认的高保真立体声音频压缩标准
-
MPEG-1音频编码
信号频带:20~20kHz
取样频率:32kHz、44.1kHz、48kHz
编码算法:子带编码
编码分层:Layer-1、Layer-2、Layer-3
Layer-1和Layer-2主要区别是子带划分不同和FFT的运算点数不同, Layer-3采用的心理学模型与编码方法更复杂。
Layer-1:最简单,用于小型数字盒式磁带。只有左右两个声道
Layer-2:中等,主要用于数字广播音频、 数字音乐、只读光盘交互系统和视盘
Layer-3:最复杂,主要用于ISDN上的声音传输(即MP3 )
三种编解码器方框图:
-
MPEG-2 BC声音压缩标准
MPEG为多声道声音开发的低码率编码方案,与MPEG-1相比主要增加了下面几个方面的内容:
支持5.1多路环绕立体声
扩展了编码器的输出范围
增加了更低的取样频率和低码率
编解码器框图:
-
MPEG-2 AAC声音压缩标准
MPEG-2标准中一种非常灵活的编码标准,采用感知编码方法
利用听觉系统的掩蔽特性来减少声音编码的数据量;并且通过子带编码将量化噪声分散到各个子带中,用全局的声音信号将噪声掩蔽掉 -
MPEG-4音频标准
综合了多种类型的音频编码
MPEG-4音频编码标准集成了从话音到高质量的多声道声音,从自然声音到合成声音。采用的编码方法有多种,包括参数编码、码激励线性预测编码CELP、时间/频率编码、结构化声音SA编码和文-语系统TTS的合成声音
7 常见声音文件格式
分类:
- 有损格式:压缩过程中追求更小体积,会让原始音频信息受损和失真(MP3、WMA、OGG等)
- 无损格式:压缩过程追求更小体积的同时,保证100%保留源文件音频数据(APE、FLAC等)
常见音频文件格式:
3.数字图像与视频压缩编码
3.1 人眼视觉特性
1 对颜色的感知
颜色:视觉系统对可见光(380~780 nm)的感知结果,颜色只存在于眼睛和大脑。
- 人的视网膜(human retina)通过神经元感知外部世界的颜色,每个神经元是一个对颜色敏感的锥体(cone) 。
- 红、绿和蓝三种锥体细胞对不同频率的光的感知程度不同,对不同亮度的感知程度也不同
- 从理论上说,自然界中的任何一种颜色都可以由R,G,B这三种颜色值之和来确定,它们构成一个三维的RGB矢量空间
2 对比度灵敏度特性
对比度: 景物或重现图像的最大亮度Lmax与最小亮Lmin之比,用符号C表示,即C=Lmax/Lmin
灰度: 画面的最大亮度与最小亮度之间所能分辨的亮度感觉级数称为亮度层次,,也称灰度
临界对比度Cr: 人眼在给定的亮度环境下所能区分景物的最小亮度差别
亮度级: 这一最小亮度差别为一个亮度级(或灰度级)
对比度灵敏度: 1/Cr
3 亮度掩蔽效应
背景亮度变化越剧烈,人眼的对比度灵敏度越低
应用:低频系数细量化,高频系数粗量化
例如:若是高频部分(变化剧烈地方),可多一些采样点反应细节,可以粗量化。若低频部分(变化缓慢的地方),可以少一些采样点,并细量化。
4 视觉的时域特性
- 视觉惰性(视觉暂留特性):
当一个景物突然出现在眼前时,需经过一定的时间才能形成一个稳定的主观亮度感觉;同样当一个实际景物从眼前消失后,所看到的印象都不会立即消失,还会暂留一段时间,由此可见人眼亮度感觉的建立与消失都滞后于实际的光刺激,而且此过程是逐步的,这样一种现象就是视觉惰性。
应用: 因此在电影中通过每秒变换24次静止画面以给人一个较好的连续运动的感觉。而在电视技术中则是利用电子扫描的方法,每秒更换25~30幅图像来获得图像连续感。 - 闪烁:
如果观察者观察到一个具有周期性的光脉冲,当其重复频率不够高时,便会产生一明一暗的感觉,这种感觉就是闪烁,但当重复频率足够高时,闪烁感觉将消失,随之看到的是一个恒定的亮点。临界闪烁频率就是指闪烁感觉刚刚消失时的频率。在电影环境的亮度照明下,人眼的临界闪烁频率约为46Hz - 运动的连续性:
通常为了保持画面中运动物体的连贯运动过程,要求每秒钟摄取的图像画面数约为25帧左右,即帧率为25Hz
3.2 颜色模型
颜色模型: 某个三维颜色空间中的一个可见光子集,它包含某个颜色域的所有颜色。
用途: 在某个颜色域内方便的指定颜色
1 RGB模型与CMYK模型
RGB——显示系统
颜色=R(红的百分比)+G(绿的百分比)+B(蓝的百分比)
CMYK——印刷工业
相加色与相减色是互补色:
2 XYZ模型
XYZ——传输存储
XYZ模型包括:YUV、YIQ和YCbCr三种模型,主要用于存储传输。
RGB模型不用于传输系统的原因:
- 大大加宽视频信号带宽
- 与单色电视不兼容
- 增加相关设备成本
三种电视系统:
- PAL(逐行倒相正交平衡调制)
大多数西欧国家、中国、中东 25帧/秒 YUV - NTSC(正交平衡调幅制)
北美、日本等部分亚洲国家 30帧/秒 YIQ - SECAM(顺序传送彩色与存储制 )
前苏联、东欧、法国、 25帧/秒 YUV
3 YUV模型
Y——亮度、UV——色度信号
U——蓝基色分量与亮度分量的差值信号
V——红基色分量与亮度分量的差值信号
适用于PAL和SECAM彩色电视制式
k1,k2为加权系数,加权系数不同,那么在相同亮度信号下,所得到的色差信号也不同
Y、 U、 V采样频率的比例有4∶2∶2和4∶1∶1
案例:例如要存储RGB彩色图像, 即R、G、B分量都用8比特表示, 图像大小为640×480像素, 那么所需要的存储容量为:
640×480×3×8/8=921 600字节
;
如用Y∶U∶V=4∶1∶1来表示,每个像素用8比特表示:
640×480×(8+8/4+8/4)/8=460 800字节
尽管数据量减少了一半, 但人眼察觉不出有明显变化
人眼的视觉对亮度的敏感程度远高于对色差的敏感程度,所以可以采用比亮度信号更窄的频带来传送色差信号
4 YIQ模型
Y——亮度信号、IQ分量分别由UV分量旋转33度
适用于NTSC彩色电视制式
5 YCbCr模型
由YUV模型派生出来的模型
Y——亮度分量、Cb——蓝色色度分量、Cr——红色色度分量
适用于计算机用的显示器
主要用于数字电视系统以及图像视频压缩标准
6 HSI模型
反映了人的视觉系统观察彩色的方式(根据人对颜色的感觉来描述颜色的颜色模型)
图像处理
I分量与图像的彩色信息无关,H和S分量与人感受颜色的方式是紧密相联的
3.3 分量编码方法
通过RGB到YUV的转换过程可以消除一定的相关性,且经过变换后将表示亮度的量和表示彩色的量分开,这样可以利用人眼视觉对彩色的分辨能力低于对亮度细节的分辨能力的特点,采用比亮度信号更窄的频带来传送色差信号
发送端RGB→YUV
接收端YUV→RGB
彩色图像信号分量编码系统的基本框图:
3.4 采样
采样:空间上连续的图像变换成离散点的操作
两个重要参数:采样间隔、采样孔径
静态图像: 先沿垂直方向采样, 再沿水平方向采样;
运动图像: 先在时间轴上采样,再沿垂直方向采样,最后沿水平方向采样。
1 二维采样定理
采样频率的选择: PAL制式亮度信号的带宽为6MHz
2 采样格式
目前使用的采样格式有如下几种:
4:4:4采样方式
高端的底片扫描仪和电影后期处理采用
fy=fcb=fcr=13.5MHz
4:2:2采样方式
高端数字视频格式
fy=13.5MHz、fcb=fcr=6.75MHz
4:1:1采样方式
DV
fy=13.5MHz、fcb=fcr=3.375MHz
4:2:0采样方式
视频的发行,DVD,视频编码标准
fy=13.5MHz、fcb=fcr=6.75MHz
色差信号的行数是亮度信号的1/2,色差信号样点数构成的矩阵是亮度矩阵的1/4
把采样后所得的各像素的灰度值转换为整数的过程称为量化。(从模拟量到离散量的转换)
3.5 WEB常用的三种图像文件格式
3.6 信息熵
1 离散信源的信息熵
消息:一个有次序的符号(如状态、字母、数字或电平等)序列
对于无记忆的图像信息源(上述信息源X中所发出的各种符号彼此独立无关)而言,我们无法确切地知道信息源在下一时刻发出的符号是符号集 中的哪一个符号。
信息源所发出的符号Si本身就是一个随机变量,而其信息量I又是Si的函数,I也是一个随机变量。
符号集Sn中每个符号的平均信息量H(X)为:
在信息论中称H(X)为图像信息源X的“熵”,其单位为bit/符号。
2 无记忆信源的概率分布与熵的关系
计算图像熵的方法有两种:
- 对图像的信息源概率分布提出数学模型,然后根据该模型进行熵的计算;
- 将图像分割成统计上相互独立的子像块,当一幅图像所包含的子像块足够 多时,便能具体测量出每个子像块出现的概率。
p=0或1时,H(X)=0,而当p=1/2时,H(X)最大,并且等于1bit/符号,其余情况下,所含的信息量总低于1bit/符号。
3 信源的相关性与序列熵的关系
序列熵与其可能达到的最大值之间的差就是信源所含的冗余度。由此可以得到另一种数据压缩的方法,去除信源各符号之间的相关性,其相关性去除得越多,越趋于无记忆信源。
3.7 图像的统计特性
图像信号经过采样、量化后数据量仍然很大,需要进行压缩编码。为了更好的压缩图像数据,不仅要研究人眼的视觉特性,还要研究图像的统计特性。
图像统计特性:图像的亮度、色度(或色差)值或亮度、色度(或色差)抽样值的随机统计特性。
在进行各类图像压缩编码过程中,将根据图像的统计特性找出最佳的压缩编码方案,使其编码后的信号速率等于图像的信息熵
1 图像空间域统计特性
用来反映任意两个像素之间的相关性,也就是在统计平均的意义上来计算它们之间的相似程度
相邻像素之间的相关特性随两像素之间距离增大而减小
2 图像差值信号统计特性
帧内差值统计特性:指对一幅(帧)图像内部像素进行的统计特性。
设同一行相邻的两个像素f (i,j) 和f (i,j+1),同一列相邻的两个像素f (i,j)和f (i +1,j),则有:
帧间差值统计特性:
帧间差值信号统计特性为电视图像的帧间压缩编码提供重要依据
3 图像频域统计特性
从频谱角度看出,电视/图像信号绝大部分能量集中于频率域中的低频部分
3.8 无失真编码方法
无失真图像压缩编码:图像经过压缩、编码后恢复出的图像与原图像完全一样,没有任何失真。(熵编码)
有损压缩编码:解码后的数据与原始数据相比有一定的偏差, 但仍可保持一定的视听质量和效果。 它主要利用人的视、听觉特性, 在保持一定保真度下对数据进行压缩, 其压缩比可达100∶1。
1 数据压缩的性能指标
2 霍夫曼编码
主要编码思路是对出现概率较大的符号用较短的码来表示,而对于出现概率较小的符号则用较长的码来表示。可见这是一种变长编码,而且哈夫曼编码又称为最优码
编码过程:
- 排序:按符号出现的概率从大到小进行排列。
- 赋值:对最后的两个符号进行赋值,概率大的赋“1”, 概率小的赋“0”(反之也成立)。
- 合并:将上述最后的两个符号出现概率相加合成一个概率。
- 重新排序:将合成后的概率与其它符号概率一起进行重新 排序(从大到小)。然后重复步骤2的内容,直至最后只剩下两个概率为止。
- 码字分配:从最后一步开始反向进行码字分配,对最后两个概率中较大的赋“1”。对较小的赋“0”(与第二过程中的规定相同)。从而形成一个码字。
例:假设某符号集X中包含6个符号:S1,S2,┈S6,各自出现的概率为:
试求其哈夫曼编码及其编码效率:
解:大概率放在前面
- 哈夫曼编码:下图给出了哈夫曼编码过程,其中设两个符号中较大的编为”1”,较小的编为”0”
编码结果:
- 编码效率:
信源熵:
平均码长:
编码效率:
压缩比:
霍夫曼编码特点:
- 编码不唯一,但平均码长相同,编码效率相同。
- 对不同信源其编码效率是不同的。
- 电路实现复杂,存在误码传播。
- 霍夫曼编码是唯一可译码
- 对信源符号按概率由大到小的顺序重新排列时,应使合并后的新符号尽可能排在靠前位置,使短码得到充分利用。
- 图像信号是有记忆信源,一阶熵并不是数码率的下界,在用变长编码前,可以先去除相关性。
- 霍夫曼编码性能最优,但是缺乏构造性(不能用数学方法建立消息与码字之间的关系)。
2 算术编码
在信源概率分布比较均匀情况下,哈夫曼编码的效率较低,而此时算术编码的编码效率要高于哈夫曼编码,同时又无需向变换编码那样,要求对数据进行分块,因此在JPEG扩展系统中以算术编码代替哈夫曼编码。
算术编码是非分组码,是对整个符号串进行编码。而霍夫曼编码是单个符号映射成一个码字。
我们可以将要编码的信息表示成实数轴0~1之间的一个间隔。这样如果这个信息的符号串越长,编码表示它的间隔就越小,同时表示这一间隔所需的二进制位数也就越多。
- 码区间的分割
设在传输任何信息之前信息的完整范围是[0,1],算术编码在初始化阶段预置一个大概率p和一个小概率q。如果信源所发出的连续符号组成序列为Sn,那么其中每个Sn对应一个信源状态,对于二进制数据序列Sn,我们可以用C(S)来表示其算术编码,可以认为它是一个二进制小数。
- 算术编码规则
如果某个符号的出现只与前m个符号有关,其所对应的区间为[C(S),C(S)+A(S)] ,其中A(S)代表子区间的宽度,C(S)是该半开子区间中的最小数,而算术编码的过程实际上就是根据符号出现的概率进行区间分割的过程, 随着信息的不断出现,子区间按下列规律减小。
例:四个符号概率如表所示,对符号序列S3S3S2进行算术编码
解:
算术编码的译码:
输入符号: S3 S3 S2 …….输出码字: 0.10011 …….
新译码点C=(原译码点C-P)/ p
综合案例:四个符号概率如表所示,对符号序列S2S3S1S1,分别求其哈夫曼编码和算术编码。
哈夫曼编码过程:
哈夫曼编码结果:
算术编码过程:
大概率符号不会增加码长,因为其累加概率为0
算术编码特点:
- 算术编码是一组符号序列与一串码字一一对应。
- 对累加概率为0的符号编码时,不会增加码长。故一般将大概率的符号置于前面。
- 符号序列较长或信源符号概率较接近时,算术编码比霍夫曼编码效率高。
- 算术编码对不同符号均有相同的递推关系,但每次递推都要做乘法,故算法与硬件实现较复杂,实时性难以保证。
3.9 运动估计
基于块匹配法的运动估计:
运动估计就是寻找运动物体的运动矢量;运动估计多采用块匹配法
1 块匹配准则
2 搜索范围
3 典型的块匹配算法
全搜索算法(FS)
以A为中心,以5个像素距离搜索并计算
以B为中心,以4个像素距离搜索并计算
以C为中心,以3个像素距离搜索并计算
以D为中心,以2个像素距离搜索并计算
以E为中心,以1个像素距离搜索并计算
最后找到最佳匹配块是以F为中心的子块
总共要计算(1+2dm) * (1+2dm) 次匹配运算,且搜索算法时间占到整个编码时间的50%~80%
优点:能达到全局最优
缺点:运算量大
二维对数算法(TDL)
开创了快速算法的先例
搜索模板:“十”字形分布的五个点,步长为1时,采用周围8个点构成。
从原点开始,选取一定的步长。
若最匹配点在边缘保持步长不变。
若最匹配点位于中心点将步长减半。
若步长为1,在中心及周围8个点处找出最匹配点。
优点:搜索速度快
缺点:易陷入局部最优
三步搜索法(TSS)
采用一种由粗到细的的搜索模式
搜索模板:按一定步长取周围8个点。
从原点开始,选取一定的步长。
随后每一次步长减半
优点:搜索速度快
缺点:易陷入局部最优
菱形搜索法(DS)
基本思想:
本算法经过多次改进,已成为目前快速匹配算法中性能最优异的算法之一,也叫钻石形搜索法;1999年10月,DS算法被MPEG-4国际标准采用并收入验证模型。,
- 使用两种搜索模板,9个检测点的大模板LDSP和5个检测点的小模板SDSP
- 搜索时,先用大模板计算,当最匹配块出现在中心点处时,换大模板为小模板,再进行匹配计算,5个点中的最匹配点即为最优点。
先用LDSP进行粗定位,避免搜索窗口太小时,陷入局部最优;
再用SDSP准确定位,保证匹配精度
搜索时各步之间相关性强,只需要在几个新的检测点处进行匹配计算,提高了搜索速度。
特点:保证搜索速度同时能保证精度。
菱形搜索法的搜索过程:
- 用LDSP在搜索区域中心及周围8个点处进行匹配计算,若最匹配点位于中心,则进行第3步,否则进行第2步
- 以上一次找到的最匹配点为中心点,用心的LDSP来计算,若最匹配匹配点为中心点,则进行第3步,否则,重复此步
- 以上一次找到的最匹配点为中心点,将LDSP换为SDSP,在5个点处计算,找到最匹配点,该点所在位置即为最佳运动矢量
菱形搜索法的算法特点:
- 选用了两中形状的搜索模板,先用LDSP搜索,部长大,搜索范围广,进行粗定位,避免了局部最优;粗定位之后,再用SDSP进行准确定位,保证了匹配精度
- 搜索时各步之间相关性强,模板移动只需要在几个新的监测点处进行匹配计算,提高搜索速度
3.10 常用变换编码
变换编码中的关键技术在于正交变换。正交变换是通过消除信源序列中的相关性来达到数据压缩的。区别在于预测编码是在空间域内进行的,而变换编码则是在变换域进行的。
正交变换的类型有多种,都在不同程度上达到减小相关性的目的,经过变换后能量会相对集中在少数变换系数上,只取那些能量集中的少数变换系数进行图像恢复时,不会引起明显的失真。
1 离散余弦变换(DCT)
DCT变换的性质:
- DCT是实数序列偶延拓后的DFT变换。
- 变换矩阵与变换内容无关,正反变换变换核相同,易实现。
- DCT具有可分离性,二维DCT可变为两次一维DCT,也有快速算法,易满足实时性的要求。
- 去相关性仅次于K-L变换,由于其实现容易,因而广泛应用与图像压缩编码中。
- F(0,0)为直流系数,其余则为交流系数,系数主要集中在直流和低频部分 。
- 变换系数F(u,v)的熵值和原图像信号f(x,y)熵值相等。
DCT的频谱图分析:
二维DCT的频谱分布与DFT相差一倍。 二维DCT将能量集中在频谱的左上角
2 离散小波变换(DWT)
小波分析用于图像压缩的特点是压缩比高,压缩速度快,压缩后能保持图像的基本特征不变,且在传递过程中可以抗干扰。
小波变换恰巧弥补了DCT变换未能满足宽带图像的高数据压缩要求的缺憾。小波变换是一种能够在频率上自由伸缩的变换,因此它是一种不受带宽约束的图像压缩方法。
小波分析优于傅立叶分析的地方是它在时域和频域同时具有良好的局部化性质, 而且由于对高频成分采用逐渐精细的时域或空域(对图像信号处理)取样步长, 从而可以聚焦到分析对象的任意细节, 小波分析的这一特性被誉为“数学显微镜”
小波变换的特点:
- 小波变换是一个满足能量守恒方程的线性变换, 能够将一个信号分解, 同时又不丢失原始信号所包含的信息
- 小波变换相当于一个具有放大、 缩小和平移等功能的数学显微镜
- 小波变换后系数的能量较为集中
- 小波变换在低频段用高的频率分辨率和低的时间分辨率(宽的分析窗口),而在高频段则用低的频率分辨率和高的时间分辨率(窄的分析窗口),这种变焦特性与时变信号的特性一致
二维小波变换用于图像编码, 实质上相当于分别对图像数据的行和列进行一维小波变换。
四级小波分解示意图
LL4,低频带,集中了图像的主要内容。
HLj表示了水平方向的边缘、 轮廓和纹理。
LHj表示的是垂直方向的边缘、 轮廓和纹理。
HHj 表示对角方向的边缘、 轮廓等信息。
小波变换应用于图像的这一特点表明小波变换具有良好的空间方向选择性, 与HVS(人眼的视觉特性)十分吻合。
可以根据不同方向的信息对人眼作用的不同来分别设计量化器, 从而得到很好的效果, 小波变换的这种方向选择性是DCT变换所没有的
3.11 静止图像编码
1 JPEG/JPEG2000
JPEG: 一种适用于静止图像压缩算法的国际标准,大多数浏览器都支持这种格式的文件。后缀名是.JPG或.JFF。
1991年成为标准,已广泛使用。基于子块的离散余弦变换DCT,采用熵编码。
JPEG2000 : 2000年成为标准,更高压缩率,更多功能。基于全帧的离散小波变换DWT,采用自适应算术编码。
特点:
- 压缩比高,压缩质量比较好。图像主观质量损伤难以察觉。
- 有多个参数。用户能得到所需的压缩比或图像质量
- 无论连续色调图像的维数,彩色空间,像素宽高比或其他特征如何,都能得到良好的压缩效果。
- 处理速度快,具有成熟的价格低廉的硬件电路支持。
在JPEG算法中,共包含四种运行模式,其中一种是基于DPCM的无损压缩算法,另外三种是基于DCT的有损压缩算法。
3.12 基于DCT的JPEG编码
1 JPEG编码码表
2 编码过程
JPEG基本系统的编码过程:
-
预处理
RGB→YCbCr
作用:为了分清主次、分而治之(亮度比色度更重要)
注意:彩色图像才需要预处理,然后再采用分量编码 -
图像分割
将输入源图像按顺序分割为互不重叠的8×8的子块,64个数据即一个数据单元DU,作为DCT变换的基本单元。
DCT变换基本单元大小确定的依据:综合压缩性能和DCT变换的运算速度确定。(通常8*8或16*16) -
DCT变换
空域→频域
作用:去相关性,能量集中于左上角
实际像素值都是大于0的无符号数,通常在DCT前将像素值减去2p-1,转换成有符号数。
- 量化
前向DCT系数 ÷ 量化表
低频系数细量化,高频系数粗量化
亮度系数细量化,色度系数粗量化
-
Z字形扫描
将二维DCT系数展开成一维序列输出,DC系数与低频系数排在前面。
Z字形扫描结果为:6,-5,-1,1,-1,-1,0,1,1,0……0 -
编码
对Z字形扫描结果:6,-5,-1,1,-1,-1,0,1,1,0……0进行编码。
DC系数编码:
AC系数编码
63个AC系数行程编码的码字用两个标示字节来表示,用Symble-1和Symble-2表示。
3 案例
若某图像块的亮度信号DCT变换后量化系数如下,假定上一块直流系数为17,求编码结果、压缩比、比特率。
解答:
详解:
首位采用DC编码,DIFF=14-17=-3,查表可得SSSS=2,固游程表示为(2,-3)
其余位采用AC编码,-1与14之间相隔1个0,查表得SSSS=1,固游程表示为(1,1)(-1),其他几位非零数同理
综上得到游程表示:(2,-3),(1,1)(-1),(1,1)(-1),(0,1)(-1),EOB
首位采用DC编码,查表可得首码(亮度码字) 011
因为-3二进制表示为 1 11,因为是负数,所以用反码表示为1 00,因为SSSS=2只需要两位表示,所以尾码为 00
其余位采用AC编码,如(1,1)(-1),查表可得首码 1100,-1二进制为 1 1 ,负数用反码 1 0,SSSS=1用一位表示,尾码为0
压缩比=系数个数*位数(1字节=8比特)/编码后得位数
色度信号数据与亮度信号数据得编码区别(通常对色度压缩比更高):
- 量化时,DCT系数量化采用色度量化表(色度粗量化)。
- 编码时,查色度系数相关码表。(对色度的编码用的码字要少些)
3.13 运动图像编码标准
视频压缩标准发展历史
1 视频会议压缩编码标准H.261
H.263支持更多的图像格式,甚低码率(低于64kbit/s)
H.261是世界上第一个得到广泛承认的、针对动态图像的视频压缩标准,是所有视频压缩系列标准的核心。
主要应用于会议电视和可视电话等方面。
编码思想(分而治之):
- 对图像序列中的第一幅图像或景物变换后的第一幅图像,采用帧内变换编码(类似静止图像编码)。
- 对其它相关性强的图像帧,采用帧间预测编码。
H.261标准的数据结构(4层)
2 MPEG系列
MPEG系列把伴音与图像的压缩联系在一起。
有MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21
MPEG-4与MPEG-1、MPEG-2的根本区别: 基于内容的压缩编码、引入了视频对象与视频对象平面的概念。
数字声像存储压缩编码标准MPEG-1由系统部分、视频部分、音频部分组成。
系统部分:
MPEG-1标准的系统部分主要按定时信息的指示,将视频和音频数据流同步复合成一个完整的MPEG-1比特流,从而便于信息的存储与传输。在此过程将向数据流中加入相关的识别与同步信息。
这样在接收端,可以根据这些信息,从接收数据流中分离出视频与音频数据流,并分别送往各自的视频、音频解码器进行同步解码和播放。
视频部分:
与H.261标准相似,MPEG-1标准也采用带运动补偿的帧间预测DCT变换和VLC技术相结合的混合编码方式。但MPEG-1在H.261的基础上进行的重大的改进,具体如下:
①输入视频格式
MPEG-1要求其输入视频信号应为逐行扫描的SIF格式。
②预测与运动补偿
与H.261标准相同,MPEG-1也采用帧间预测和帧内预测相结合的压缩编码方案,来满足高压缩比和随机存取的要求。
3.14 MPEG-1中的三种视频帧
MPEG-1标准中定义了三种类型的帧:分别是I图像帧、P帧和B帧。
压缩效率:B > P > I
数据量:I > P >B
I可做参考帧、 P可做非I帧得参考帧、B不可做参考帧
1 I 帧:帧内图像
I帧不考虑与其它图像帧的关系,而单独进行编码的图像。
- 第一帧必须是I帧,且需定期传送I帧。
随机存取点的(I帧)的间隔时间为0.2S,即GOP中图像为NTSC6帧,PAL5帧,目的是为了编码定位方便,或防止传输过程的误码引起累积差错。 - 作用:提供起始解码数据帧。
- 压缩方法:与静止图像编码方法相同。
- 特点:数据量较P帧,B帧大,可以做参考帧
2 P 帧:前向预测帧
P帧以I帧或P帧作为参考帧,利用运动补偿预测技术完成编码。
- 作用:为下一非I帧提供参考帧,降低空间和时间上的冗余度
- 压缩方法:运动矢量与补偿残差编码
- 特点:比I帧压缩效率高,数据量低于I帧,高于B帧,可以为非I帧视频提供参考帧。
3 B 帧:双向预测帧
B帧同时根据前后两帧进行预测编码
- 作用:进一步降低空间和时间上的冗余度
- 压缩方法:运动矢量与补偿残差编码
- 特点:压缩比最高,时间上有延迟,不能作参考帧
编码与解码的时序关系:
由于存在B帧,编码顺序与解码顺序不相同,需要帧序重排。
第一帧必须传送I帧,因为它提供起始解码指针,定期传送I帧是为了防止误差积累,且为随机存取提供了可能
3.15 MPEG-1的码流分层结构
MPEG-1数据码流的层次结构
序列层: 视频就是由图像序列组成
GOP层: 随机存取单元
图像层: 显示的基本单元
条带层: 再同步的单元
宏块层: 基本编码单元
块层: 最小的编码单元(DCT变换的单元)
4.多媒体通信网络
4.1 多媒体信息的特点
1 多媒体数据的海量性
多媒体数据包含文本、音/视频等等,数据量非常大,尤其是图像、视频,尽管采用了压缩算法,但是在保证图像质量的条件下还是有很大的数据量,因此不仅需要很大的存储容量,在传输时也需要很大带宽(并发性)。
2 多媒体数据的集成性
多媒体数据所包含的多媒体对象有多种类型,不同类型的对象具有各自不同的特点,通信时需要对它们共同进行存储、传输、处理及显现,因而必须有机地将它们结合在一起。
3 多媒体数据的同步性
在多媒体对象内部,各媒体对象之间存在着时空约束关系,在通信时需要对这种约束关系进行维持,以保证多媒体信息在终端上的正确显现。
4 多媒体通信的交互性
多媒体通信的关键特点就是交互性,要求通信网络提供双向的数据传输通道,双向通道的带宽或者功能可以是不对称的。
5 多媒体通信的实时性
多媒体数据中有相当一部分数据是连续性的媒体数据,如音/视频,这些媒体数据对多媒体传输设备、传输网络的要求很高,不仅要保证传输带宽,还有采用适合的协议保证实时性。
4.2 多媒体通信网络的四个性能指标
1 吞吐量(比特率、带宽)
网络吞吐量指的是有效的网络带宽,定义为物理链路的数据传输速率减去各种传输开销。
吞吐量反映了网络所能传输数据的最大极限容量。
吞吐量可以表示成在单位时间内处理的分组数或比特数,它是一种静态参数,反映了网络负载的情况。
在实际应用中,人们习惯于将网络的传输速率作为吞吐量。实际上,吞吐量要小于数据的传输速率。
2 传输延时
网络的传输延时是指信源发出最后一个比特到信宿接收到第一个比特之间的时间差。
端到端延时小于250ms,才不会被察觉
多媒体通信系统对延时的要求主要体现在多媒体通信的实时传输方面。
常用的延时参数是端到端延时:一组数据从信源发送的时刻到信宿收到数据时刻之间的时间差。
3 延时抖动
网络传输延时的变化称为网络的延时抖动,即不同数据包延时之间的差别。可用一段时间内(例如一次会话过程中)最大和最小的传输延时之差来表示延时抖动。
反映网络传输的不稳定
电路交换只有物理抖动,且产生延时抖动幅度非常小。
分组交换两种原因的抖动都存在,通常介质访问时间波动更大。
人们对音频抖动比对视频抖动更敏感。
消除延时抖动的方法:接收端建立缓冲器(端到端延时会增加)
4 错误率
在传输系统中产生的错误有以下几种度量方式:
- 误码率BER(Bit Error Rate):误码码元数/总码元数
- 包错误率PER(Packet Error Rate):差错包数/总包数
- 包丢失率PLR(Packet Loss Rate):丢失包数/总包数
4.3 QoS提供机制
QoS(Quality of Service,QoS),ITU-T定义为决定用户对服务的满意程度的一组性能参数。
4.4 QoS管理机制
4.5 NGN的体系结构(四层)
NGN广义的概念:包含所有新一代的网络技术,是端到端、演进的、融合的整体解决方案。
NGN狭义的概念:指以软交换设备为控制核心,能够实现语音、数据、和多媒体业务的开放的、分层体系架构。
NGN的特征:NGN是开放的、业务驱动的、基于统一协议、基于分组的网络。
NGN体系结构
四个开放的网络层次、各层之间彼此分离、全开放的体系结构
4.6 多媒体通信需要涉及重要传输协议
1 实时传输协议RTP
该协议能够支持基于IP网络的多媒体通信业务的实现,为实时数据的应用提供点到多点通信的传输服务。
为实现真正的端对端传输, RTP还必须以UDP或TCP为底层协议; 在网络层, IP完成网络寻址等最基本的网络层功能。
2 实时传输控制协议RTCP
该协议作为RTP协议的控制协议,通过周期性的向所有参加者发送控制报文,来传输有关服务质量的反馈信息和参加会话的成员信息。
RTP协议不确保实时业务的服务质量,通过RTCP协议来增强数据传送功能。
3 资源预留协议RSVP
RSVP协议位于IP层之上,属于OSI参考模型中的传输层,是一种网络控制协议,用于建立网络资源预留。
它允许客户端向网络提出一个特定的请求,为其数据流提供所需的端到端的服务质量(QoS)。
重要概念:
- 数据流: 具有一个特定的目的地和传输层协议的数据流定义为“会话(Session)”,通常用数据流来表示它所在的那个会话。
- 消息类型: RSVP能够支持多种消息类型,其中最重要的两个消息是Resv和Path。
Path——RSVP路径消息
由发送端主机逐跳地向下游传送给接收端
用于指示数据流的正确路径
Resv——RSVP资源请求消息
由接收端主机向上游传送给发送端
逆向在沿途每个节点处预留资源
4.7 RSVP协议的特点及工作过程
1 RSVP协议的机制(工作过程)
2 RSVP协议的特点
- RSVP是单工的,仅为单向数据流请求资源。
- RSVP协议是面向接收者的,由接收端初始化资源预留。
- RSVP依赖于路由选择协议,但仅关心分组的QoS。
- RSVP对不支持RSVP的路由器提供透明操作。
- RSVP同时支持IPv4和IPv6。
4.8 多媒体信息同步的概念及分类
1 多媒体同步的基本概念
所有的数字通信系统都要实现同步来保证数据的可靠传输。
在单一媒体的传输中,同步的情况要简单些,而在多媒体系统中,不同媒体间的多种时态关系很复杂,同步问题也就尤为突出。
多媒体同步就是保持和维护各种媒体对象之间以及各种媒体对象内部所存在的时态关系,维持各种媒体序列来达到某种特定任务的目的。
2 多媒体同步分类
4.9 多媒体数据的约束关系
三种约束关系中,时域约束关系最重要。
4.10 多媒体时域特征表示过程
1 时域场景及时域定义方案
确定性时域场景和非确定性时域场景:
2 时域参考框架
时域参考框架是由多媒体场景、时域定义方案和同步机制三个部分构成
3 描述时域特征的时间模型
4.11 时域参考框架与4层参考模型间的对应关系
逻辑数据单元LDU由媒体层处理
5.多媒体流式应用系统与终端
5.1 流媒体概念及特点
流媒体(Stream Media):在网络中使用流式传输技术的连续时基媒体(如视音频等多媒体内容)。
解析后的多个压缩包可以随机传送,接收后再重新排序
流媒体的技术优势:
- 实时性(减少等待)
- 有效性
- 便于存储,节省存储空间及带宽。
- 方便性和集成性
- 有利于知识产权的保护
5.2 流媒体的四种播放方式
5.3 流媒体传输与控制协议
5.4 内容分发网络CDN的概念及网络结构
内容分发网络CDN(Content Delivery Network), 为能在传统IP网发布宽带丰富媒体,而特别优化的网络覆盖层;
CDN是建立在现有IP网上的一种叠加应用网络
内容缓存设备与内容交换机是集成在一起的,且一般放置在用户接入点处
5.5 内容缓存策略
内容缓存策略:采用推拉式缓存节目内容
5.6 P2P网络模型及应用特点
P2P技术特点:
- 网络中的参与者既是资源的提供者又是资源(服务和内容)获取者。
- 在P2P网络中用户设备既是终端,又是网络节点,相互之间是对等的关系。
P2P技术优点:节约网络建设费用,增强网络传输可靠性
6.多媒体视频会议应用系统与终端
6.1 多媒体视频会议系统概念
多媒体视频会议系统是一种能将音频、视频、图像、文本和数据等集成信息从一个地方通过网络传输到另一个地方的通信系统。
视频会议的参与者通过视频会议的方式可以:
- 听到其他会场与会者的声音
- 看到其他会场和与会者的视频图像,
- 通过传真和电子白板及时的传送需要讨论的文件
多媒体视频会议系统使与会者有身临其境的感觉。
6.2 多媒体视频会议系统的结构
一个典型的多媒体会议系统是由终端设备、通信网络、多点控制单元MCU和相应的系统运行软件组成的。
- 视频会议系统分为点对点会议系统和多点会议系统。
- 点对点的视频会议系统不需要MCU。
6.3 多点会议控制方式及应用特点
1 声控模式
声控模式按照“谁发言显示谁”的原则,由声音信号的大小来控制图像的自动切换,此种模式应用十分普遍。(全自动模式,适合会场不多的情况)
2 发言人控制模式
由发言人通过相应的控制按钮向MCU发出发言请求信号,MCU认可后便将其视频图像、音频信息播放到其它的会议终端,同时,MCU还要给发言人一个已经“播放”的提示。在发言人讲话完毕后,MCU自动切换回到声控模式。
一般与声控模式混合使用的,也只适合参与会场不很多的场合
3 主席控制模式
这种控制模式将所有参与会议的会场分为主会场和分会场两种,由主会场(主席)控制整个会议的进行。
主会场根据会议的进行情况来决定由哪个会场在何时发言。分会场要想发言需先向主席申请,经主席许可后才可进行有效的发言,并将发言者的会场图像传送到其它会场。主席也可点名某个分会场发言,其它分会场接收其图像和声音。
主席控制模式具有很大的主动性,可以避免声控模式中由于频繁的切换造成的混乱现像,控制的效果也比较好。
4 广播/自动扫描模式
该模式是主席控制模式的变型。在这种模式中将电视画面设置为某个会场(称为广播机构),与会者可以定时、轮流的看到其它各个分会场。扫描的间隔和广播机构的画面要事先安排好。
5 连续模式
连续模式将电视屏幕划分为若干个窗口,与会者可以在一个电视画面上同时看到多个分会场的情况。连续模式是一种较新的控制模式。
会场的控制模式是由相应的应用程序驱动的,若出现视频会议新的应用需求就会有新的控制模式给予支持。
6.4 视频点播VOD系统的概念
VOD基本概念: 视频点播VOD是一种受观众控制的非对称双工通信模式的电视业务,观众可以对电视节目在节目之间和节目之内作出选择。
视频点播VOD又可以更进一步分为真视频点播TVOD(True Video on Demand)和准视频点播NVOD(Near Video on Demand)。
真点播电视支持即点即放,NVOD是一种VOD的过渡替代业务。
6.5 视频点播VOD系统的组成
VOD系统结构:按照信息流在不同网络的传输,VOD可以有不同的系统结构。
-
VOD逻辑结构
从经营的角度来说,VOD一般包括三个部分:节目提供者、业务提供者和业务消费者。
VOD的用户终端一般有两种
机顶盒STB(Set Top Box)
计算机 -
VOD系统的构成
从具体实现上来看,一般的视频点播VOD系统由节目提供、管理中心、视频服务器、传输网络和终端5个部分构成。