第七章、探索多媒体技术：从基础到高级处理_多媒体技术知识点整理-CSDN博客

媒体名称	描述	实现方式
感觉媒体	直接作用于人的感觉器官，使人产生直接感觉的媒体	人类语言、文字、音乐
表示媒体	用于传输感觉媒体的手段，是对感觉媒体的各种编码	语言编码、文本编码、图像编码
表现媒体	包括输入表现媒体和输出表现媒体	扫描仪、麦克风、显示器
存储媒体	用于存储表示媒体的物理介质	内存、硬盘、磁盘、光盘
传输媒体	将表示媒体从一处传递到另一处的物理载体	导线、电缆、电磁波

多媒体的主要特征：集成性、交互性、数字化、实时性、非线性、高质量

特点名称	描述	关键信息点
集成性	融合多种信息载体（文本、图形、图像、音频、视频）和多种技术（计算机技术、通信技术、声像技术）	多种信息载体与技术融合，提供全面信息体验
交互性	用户主动参与，实时反馈。多样化的交互手段（鼠标、触摸屏、语音、手势等）	用户主动操作，系统实时响应，增强参与感。多种交互方式，方便自然，增强用户体验
数字化	信息以数字形式存储，便于处理和传输	数字形式存储，易于编辑、复制、存储和传输
实时性	音视频同步，实时交互响应	保证音视频同步，快速响应用户操作
非线性	灵活的信息组织方式，适应不同用户需求	用户自由选择浏览路径和顺序，个性化体验
高质量	高分辨率视觉效果，高保真音频效果	提供清晰细腻的画面和优质音频体验

二、多媒体技术的媒体元素

概念：利用多媒体技术可以对声、文、图、像进行处理，我们将这些多媒体技术处理对象称为媒体元素。

媒体元素：指多媒体应用中可显示给用户的媒体组成成分。

多媒体计算机系统由多媒体计算机硬件系统和多媒体计算机软件系统组成。

多媒体计算机硬件/软件系统

硬件：输入设备（摄像头、麦克风）、输出设备（显示器、扬声器）、存储设备（硬盘、光盘）、处理设备（GPU、声卡）。
软件：多媒体操作系统（如Windows）、创作工具（如Adobe系列）、应用软件（如媒体播放器）。

三、多媒体处理技术

1、多媒体数据的压缩

数据压缩的重要指标：

压缩比：压缩前后数据量的比值。压缩比越高说明效果越好。

恢复效果：也称保真度。压缩后数据与原始数据的相似度。恢复质量高，说明在压缩时较好的保留了原始数据的特征和信息。

速度：完成压缩和解压操作的快慢程度。对于实时处理或大量数据处理的场景，压缩和解压的速度非常的重要。

压缩开销：压缩所产生的计算机资源消耗，时间成本以及相关软硬件资源投入。

支持多媒体信息基于内容检索的编码方案：MPEG-7,多媒体框架标准：MPEG-21;

压缩技术的分类：无损压缩和有损压缩

无损压缩：

原理：通过去除数据中的冗余信息来减少数据量，但不会丢失原始数据的任何内容
特点：压缩后的数据能够完全还原为原始数据，没有任何信息损失，压缩比为:2:1到5:1.
应用场景：一般应用于文本数据、程序以及重要图片和图像的压缩。【不适合处理视频和音频数据】

有损压缩：

原理：在压缩过程中会丢失以一些不太重要或者人眼不易察觉的细节信息，以实现更高的压缩比。
特点：压缩后数据无法还原为原始数据，在可接受的范围内损失一定的信息。
应用场景：常用于多媒体数据，音频、视频、图像等。

        常见的压缩标准：静止图像压缩标准、动态图像压缩标准，

        视频数据编码主要采用：MPEG系列标准。

        支持多媒体信息基于内容检索的编码方案：MPEG-7,多媒体框架标准：MPEG-21;

2、图像处理技术

在计算机中图形和图像有着区别和联系：

图像：通过数字照相机、摄影机等捕捉的真实场景，数字化后以位图格式存储，也称位图像，放大后可以看到一个个方形色块，就是像素点。像素点颜色等级越多就越逼真。放大后整体图像会变模糊。

图形：由直线、圆、圆弧、任意曲线构成的画面。以矢量形式进行存储，也被称为矢量图。当对矢量图放大后，图像仍然能保持原来的清晰度

像素：是组成图像的最小单位。
图像分辨率：指对数字图像的实际尺寸，反映了图像水平方向的像素个数和垂直方向的像素个数。
颜色深度：记录每个像素所使用的二进制位数。颜色深度值越大，显示的图像色彩越丰富。画面越自然、逼真。
色彩模式：在数字图像中经常使用RGB(红、绿、蓝)每个颜色占8比特，和CMYK(青、洋红、黄、黑)两种。
图像的数字化：图像只有经过数字化后才能称为计算机处理的位图。涉及图像的采样、量化、编码。
图像文件所占字节数的计算：主要取决于以下几个参数：图像的分辨率(宽X高)、颜色深度（位深度）、是否压缩。

1、未压缩图像的字节数计算：

公式：图像大小（字节）=宽度×高度×颜色深度（位）

8

说明：

颜色深度：每个像素占用的位数（如24位真彩色 = 3字节/像素）。

除以8：将位数转换为字节（1字节=8位）。

示例：一张 1920×1080 分辨率、24位真彩色的未压缩位图（BMP）大

1920×1080×24

8 =6220800字节≈6.22MB

2、压缩图像的字节数计算

压缩后的图像大小取决于 压缩算法 和 压缩比，无法直接通过公式计算，但可通过以下方式估算：

压缩后大小=未压缩大小

压缩比

示例：计算 800×600 分辨率、256色（8位）图像未压缩大小：

800×600×8

8 =48000字节 =480KB

若上述图像保存为JPEG（压缩比15:1），估算大小：

480 KB/15≈32 KB

图形图像的文件格式：

文件格式	描述
BMP格式	BMP（位图）是Windows系列操作系统设置的标准图像文件格式。它以独立于设备的方法描述位图，几乎不进行压缩，因此，它包含的图像信息较丰富，占用磁盘空间过大，是无损压缩
GIF格式	GIF（图形交换格式）是将多幅图像保存在一个文件中，以一定的时间间隔播放形成简单的动画效果。适合于动画制作、网页制作及演示文稿制作等领域。GIF格式文件既支持动态图像，也支持静态图像
JPEG格式	JPEG文件是第一个国际图像压缩标准。高效的压缩格式，可对图像进行大幅度的压缩，最大限度地节约网络资源，提高传输速度，因此用于网络传输的图像，一般存储为该格式
PNG格式	PNG(移植的网络图像)是流式图像文件存储格式，用来存储灰度图像时，灰度图像的深度PNG格式可多到16位；存储彩色图像时，彩色图像的深度可多到48位，常于程序中或网页中。主要优点为压缩比高，并且是无损压缩，生成文件容量小，支持透明图像制作
PSD格式	图形设计软件Photoshon的专用格式。PSD文件可以存储RGB或CMYK模式，还能自定义颜色PSD格式并加以存储，还可以保存Photoshon的图层、通道、路径等信息。是目前唯一能够支持全部图像色彩模式的格式
CDR格式	CDR是Corel DRAW软件特定的格式。这个图形工具软件给设计师提供了矢量动画、页面设CDR格式计、网站制作、位图编辑和网页动画等多种功能
WMF格式	即图元文件。是微软公司定义的一种Windows平台下的图形文件格式。它具有文件短小、图WMF格式案造型化的特点，但图形往往比较粗糙

图像处理软件

处理软件	描述
ACDSee	数字图像处理软件，广泛应用于图片的获取、管理、浏览、优化。利用该软件可以快速的查看图片和寻找相片，修正不足，并通过电子邮件、打印和免费在线相册来分享自己的收藏。
3DS Max	应用最广泛的三维建模，动画、渲染软件，完全满足制作高质量动画、最新游戏、设计效果等领域
AutoCAD	应用CAD技术而开发的绘图程序软件包，经过不断地完善，已经成为国际上广为流行的绘图工具
Maya	集成了先进的动画及数字效果技术，不仅包括一般三维和视觉效果制作的功能，而且结合了最先进的建模、毛发渲染和运动匹配技术。Maya因其强大的功能在3D动画界产生巨大的影响
Flash	交互式矢量图形编辑动画制作软件，可集成多种媒体素材，包括图像、文字、声音、视频等。Flash动画广泛应用于多媒体网站制作、广告制作、多媒体课件制作中
Photoshop	目前最流行的图像处理软件，它的强大功能和易用性得到了广大用户的喜爱。在图像处理领域和计算机的图形图像数字化处理技术领域已经得到普及，而图像处理及特效是Photoshop最突出的功能

3、音频处理技术

音频处理过程：采样、量化、编码

采样：采样是每隔一定时间间隔在声音波形上取一个幅度值，该时间间隔称为采样周期，其倒采样数为采样频率，即每秒钟的采样次数，单位是HZ。采样后得到的是离散的声音振幅样本序列，仍是模拟量。采样频率越高，声音的保真度越好，但采样获得的数据量也越大。

量化：量化是将每个采样点得到的幅度值以数字存储，量化位数（即采样精度）表示存放采样点振幅值的二进制位数。量化位数通常有8位、16位等。采样频率越高，量化位数越多，所得数字化声音的保直度越好，信息的存储量也相应越大。

编码：编码是将采样和量化后的数字数据以一定的格式表示。除了采样、量化、编码外，影响声音数字化效果的另一个重要因素是声道数。声道数指声音的通道数，记录声音时，如果每次生成一个声道数据，称为单声道：每次生成两个声道数据，称为双声道，也称为立体声。在其他条件相同的情况下，双声道文件所占存储空间是单声道文件的两倍。

音频文件存储容量的计算

音频文件的存储容量取决于 采样率、量化位数（位深度）、声道数、音频时长 以及 是否压缩。

1、未压缩音频文件的存储容量计算：

公式：存储容量（字节）=采样频率(Hz) * 量化位数(bit)*声道数*时长(s)%8

单位转化：

1Byte=8bit

1KB=1024Bytes

1MB=1024KB

示例：CD音质的WAV文件（未压缩）

        采样率：44.1kHz = 44100 Hz

        量化位数：16bit

        声道数：2（立体声）

        时长：3分钟 = 180秒

计算：

                 44100×16×2×180÷8=31,752,000 字节≈30.28 MB

2、压缩音频文件存储容量的计算：

        压缩音频（如MP3、AAC）的存储容量取决于 比特率（Bitrate）

        公式：



存储容量（MB）= 比特率(kbps)×时长(秒)

8*1024

示例：128kbps MP3文件（时长5分钟）

   128×300

8*1024 ≈4.69 MB

采样率 vs 比特率的区别：

采样率：每秒采集多少次声音（Hz）。

比特率：每秒存储的数据量（kbps）。

音频文件的格式

格式	类型	压缩方式	音质	文件大小	主要特点	主要用途	常见扩展名
WAV	未压缩	无	无损（CD音质）	极大	PCM编码、兼容性极好、无压缩，文件大	专业录音、 Windows系统音效	.wav
AIFF	未压缩	无	无损	极大	Apple开发支持元数据标签类似WAV但Mac专用	Mac音频、音乐制作	.aiff .aif
FLAC	无损压缩	无损	无损（Hi-Res）	较大	开源格式压缩率40-50% 支持高分辨率(24bit/192kHz)	音乐收藏、高保真播放	.flac
ALAC	无损压缩	无损	无损	较大	Apple专用压缩率类似FLAC 完美兼容iOS设备	iTunes、iOS设备	.m4a
MP3	有损压缩	有损	一般高	小	最普及格式可调比特率(32-320kbps) 去除人耳不敏感频段	通用音乐播放、网络	.mp3
AAC	有损压缩	有损	优于MP3	较小	4容器封装效率比MP3高30%苹果/YouTube/Spotify首选	流媒体（Spotify/Apple）	.m4a .aac
OGG	有损压缩	有损	接近AAC	小	开源(Vorbis编码) 支持多声道游戏开发常用	游戏音效、开源项目	.ogg
MIDI	指令集	无	依赖合成器	极小	仅存储音符指令文件极小音质取决于播放设备	电子音乐、手机铃声	.mid .midi
DSD	超高分辨率	无（1bit）	极致无损	极大	1bit/2.8MHz 采样 SACD专用格式需要专业设备播放	高端音响、SACD光盘	.dsf .dff

4、视频处理技术

概念：连续的图像变化每秒超过24帧画面时，人眼无法辨别每幅单独静态的画面，看上去是平滑连续的视觉效果，这样连续的画面叫做视频。当连续图像变化每秒低于24帧画面时，人眼有不连续的感觉，叫做动画。

视频的分类：按照处理方式的不同：模拟视频和数字视频。

模拟视频：每一帧图像是实时获取的自然景物的真实图像信号；
数字视频：是基于数字技术以及其他的更为拓展的图像显示标准的视频信息。
二者的区别：

数字视频可以不失真的进行无数次复制，而模拟视频信号每转录一次，就会有一次误差积累，从而产生信号失真；
模拟视频长时间存放后视频质量会降低，而数字视频可以长时间存放；
可以对数字视频进行非线性编辑，并可以增加特技效果；
数字视频数据量大，在存储与传输过程中必须进行压缩编码。

视频数据量的计算

视频数据量的计算涉及 分辨率、帧率、颜色深度、压缩方式 等多个参数。

1. 未压缩视频数据量计算

公式：

                数据量（字节)= 宽度×高度×颜色深度（bit）×帧率×时长（秒）

8



示例：1分钟未压缩1080p视频（24fps，24bit色深）

计算：                                1920×1080×24×24×60

8 =8,957,952,000 字节≈8.94 GB

2、压缩视频数据量计算

压缩后的视频大小取决于 码率（Bitrate)

公式：

                数据量（字节）=码率（bps）×时长（秒）

8

或直接计算为兆字节（MB）：

数据量（MB）=码率（Mbps）×时长（秒）

8

示例2：5分钟1080p视频（码率8Mbps）

计算： 8x300

8 =300MB

参数说明

参数

常见取值

说明

分辨率

1920×1080（全高清）

每帧的像素数量

颜色深度

24bit（RGB 8bit×3通道）

每个像素占用的位数

帧率

24/30/60 fps

每秒显示的帧数

时长

以秒（s）为单位

如 60s = 1分钟

分辨率 推荐码率（H.264） 适用场景
720p 2~5 Mbps 网络视频（如YouTube）
1080p 5~10 Mbps 高清流媒体
4K 25~50 Mbps 超高清视频

参数	常见取值	说明
分辨率	1920×1080（全高清）	每帧的像素数量
颜色深度	24bit（RGB 8bit×3通道）	每个像素占用的位数
帧率	24/30/60 fps	每秒显示的帧数
时长	以秒（s）为单位	如 60s = 1分钟

分辨率	推荐码率（H.264）	适用场景
720p	2~5 Mbps	网络视频（如YouTube）
1080p	5~10 Mbps	高清流媒体
4K	25~50 Mbps	超高清视频

常见的视频文件格式

格式	封装类型	常用编码	主要特点	优点	缺点	典型用途
MP4	容器格式	H.264/H.265	高度兼容支持多轨道	通用性强，压缩率高	编辑性较差	网络视频、流媒体
AVI	容器格式	DivX/ Xvid	历史最悠久支持无损	兼容性极好	文件大，不支持现代编码	早期视频存储
MOV	容器格式	ProRes/H.264	Apple开发专业编辑友好	高质量，支持alpha通道	苹果生态为主	影视后期制作
MKV	容器格式	任意编码	开源多轨道支持	支持多字幕/音轨	兼容性一般	高清影片收藏
WebM	容器格式	VP8/ VP9	网页原生支持开源	免版权，小体积	画质一般	HTML5网页视频
FLV	容器格式	H.263	早期流媒体格式	适合低带宽	已淘汰	旧版网络视频
WMV	容器格式	VC-1	微软专用	小体积	画质差	旧版Windows视频
MPEG	编码格式	MPEG-2	DVD标准	广播级质量	效率低	广播电视/DVD
TS	容器格式	H.264	实时流传输	抗丢包	文件碎片多	数字电视/直播
ProRes	编码格式	Apple ProRes	专业后期格式	高质量低压缩	文件极大	影视剪辑母版

5、流媒体技术

流媒体是指在网络上按时间先后次序传输和播放的连续音/视频数据流。（边传送边播放）
流媒体技术的特点：连续性、实时性、时序性。
流媒体的主要应用：视频点播、视频广播、视频监控、视频会议、远程教学、交互式游戏。
关键技术：

技术	作用	典型协议/标准
编码压缩	减小视频体积（如H.264/H.265）	H.265, AV1
分段传输	将视频切分为小文件（如2~10秒片段）	HLS, DASH
自适应码率	根据带宽动态切换不同码率的视频版本	ABR (Adaptive Bitrate)
CDN分发	通过边缘节点加速内容传输	Akamai, Cloudflare
低延迟优化	减少端到端延迟（直播通常<5秒）	WebRTC, LL-HLS