音视频基础概念对比

音频视频备注
定义『声音』是振动产生的声波,通过介质(气体、固体、液体)传播并能被人或动物听觉器官所感知的波动现象

光是一种电磁波.

图像是人对视觉感知的物质再现。图像可以由光学设备获u取,如照相机、镜子、望远镜及显微镜等;也可以人为创作,如手工绘画。图像可以记录、保存在纸质介质、胶片等等对光信号敏感的介质上。随着数字采集技术和信号处理理论的发展,越来越多的图像以数字形式存储。

上述定义里有两个关键词:『视觉感知』和『物质再现』。前者对应着图像成像的过程,后者对应着图像信号处理的过程。

特征

声波的三要素是频率、振幅和波形

  • 音调:表示声音的高低。音调是人耳对声音高低的主观感受。音调对应的客观评价尺度是声波的『频率』。音调的高低是由振动频率决定的,两者成正相关关系。(频率代表音阶的高低。频率越高,波长就越短。)

  • 响度:表示声音的大小。(振幅代表响度,响度就是能量大小的反应,分贝常用于描述响度的大小)响度是反映人耳感受到的声音强弱的主观心理量,根据它可以把声音排成由轻到响的序列。

  • 音色:表示声音的特色。波形代表音色。波的形状决定了其所代表声音的音色,钢琴和小提琴的音色不同,就是因为它们的介质所产生的波形不同

  • 色调(hue)。太阳或灯泡等光源发射可见波段的全部频率而产生白色光。当白色光投射到一个物体上时,某些频率被反射,某些则被物体吸收了。在反射光中混合的频率确定了我们所感受到的物体的颜色。如果在反射光中以低频率为主,则物体呈现红色。此时,我们可以说光谱中红色端有一个主频率(或主波长),也称为光的色调。

  • 亮度(brightness)。对应于光的能量大小,可量化为光源亮度。

  • 饱和度(saturation)。对应于光的颜色表现接近光谱色(例如红色)的程度。浅色或暗淡的颜色的饱和度较低,它们比较接近白色。

还有另外一个术语色度(chromaticity)通常是说明『饱和度』和『色调』这两种特征的综合表现。

感知人类的听觉感知系统是一个复杂的系统,如下图所示。它是怎么感知声音的呢?简单来讲,声音作为一种机械波,通过空气传播到人耳,在人耳中转变为神经动作电位,神经脉冲到达大脑,人从而感知到声音。

从发声的角度来看,人类发出的声音信号频率绝大部分在 5k Hz 以内,因此以 10k Hz 的频率来采样就足够了。

从听声的角度来看,人类听觉范围是 20~20k Hz 内的音频,那么数字音频的采样率需要在 40k Hz 以上。

我们为什么能感知到『颜色』?答案是因为物体发出或反射的光。早在之前,人类就发现光是一种电磁波,而人类视觉系统中有三种不同的椎体细胞,它们分别对不同波长段的光最敏感,视锥细胞形成的视觉信号复合后为人呈现了色彩缤纷的世界,这是人眼视觉感知三原色理论。人类并不能看见所有的电磁波,因此把能看见的电磁波称为可见光,对应的波长在 380-780 nm 之间。我们日常所见的大多数光,都是不同波长的光组合而成,因此我们才能看到这么多颜色。比如太阳光,它就是由多种不同颜色的光组合而成,牛顿很早的时候就用棱镜揭示过这个事实:白光包含所有可见光谱的波长

人类视觉系统中有三种不同的椎体细胞,它们分别对黄绿色、绿色和蓝紫色的光最敏感。第一种对长波长的光响应最大,峰值波长约为 560 nm,有时将这种类型视锥细胞称为 L。第二种类型对中波长的光响应最大,在 530 nm 处达到峰值,通常简称为 M。第三种类型对短波长的光响应最大,在 420 nm 处达到峰值,简称为 S。人类视锥细胞的峰值响应因人而异,所以这三种类型的峰值波长要取决于个人,它们的范围在 564–580 nm,534–545 nm 和 420–440 nm 附近。

这三种类型不完全对应于如我们所知的特定的颜色。相反,对颜色的感知是由一个开始于这些位于视网膜的细胞差异化的输出,且将在大脑的视觉皮层和其它相关区域中完成的复杂的过程实现的。例如,尽管 L 视锥细胞简称为红色感受器,紫外可见分光光度法表明它们的峰值敏感度在光谱的绿黄色区域。类似的,S 视锥细胞和 M 视锥细胞也不直接对应蓝色和绿色,尽管它们经常被这样描述(在很多资料的描述中,人眼的三种椎体细胞敏感的光分别对应 630 nm 的红光、530 nm 的绿光和 450 nm 的蓝光,因此才把 RGB 作为三基色)。实际上 RGB 颜色模型仅仅是用以表达颜色的一个方便的方式,而不是直接基于人眼中的视锥细胞类

数字化

对声音进行数字化,首先要使用特定的设备对声音进行采集,比如麦克风就是常见的声音采集设备。麦克风里面有一层碳膜,非常薄而且十分敏感。声音是一种纵波,会压缩空气也会压缩这层碳膜,碳膜在受到挤压时也会发出振动,在碳膜的下方就是一个电极,碳膜在振动的时候会接触电极,接触时间的长短和频率与声波的振动幅度和频率有关,这样就完成了声音信号到电信号的转换。之后再经过放大电路处理,就可以实施后面的采样、量化处理了。

上面探讨了声音三要素的数学描述,这是声音数字化的基础。

声音由波形组成,包含了不同频率、振幅的波的叠加。为了在数字媒体内表示这些波形,需要对波形进行采样,其采样率需要满足可以表示的声音的最高频率;同时还需要存储足够的位深,以表示声音样本中波形的适当振幅。

声音处理设备重建频率的能力称为其频率响应,创造适当响度和柔度的能力称为其动态范围,这些术语通常统称为声音设备的保真度。最简单的编码方式可以利用这两个基本元素重建声音,同时还能够高效地存储和传输数据。

声音的数字化过程是将模拟信号(连续时间信号)转化为数字信号(离散时间信号)的过程,包括 3 个步骤:

  • 采样:以一定采样率在时域内获取离散信号。

  • 量化:每个采样点幅度的数字化表示。

  • 编码:以一定格式存储数据。

经过数字化处理后的数字音频包含如下三要素:

  • 采样率

  • 量化位深

  • 声道数

1)采样率

对模拟信号的采样一般遵循奈奎斯特采样定理:如果一个信号是带限的(即它的傅立叶变换在某一有限频带范围以外均为零),并且它的样本取得足够密(相对于信号中的最高频率而言),那么这些样本值就能唯一地用来表征这一信号,并且能从这些样本中把信号完全恢复出来。为了不失真地恢复模拟信号,采样频率应该不小于模拟信号频谱中最高频率的 2 倍。一般实际应用中保证采样频率为信号最高频率的 2.56~4 倍。

数字信号由模拟信号采样而来,如果满足采样定理,数字信号就可以完全恢复原始的模拟信号。

从发声的角度来看,人类发出的声音信号频率绝大部分在 5k Hz 以内,因此以 10k Hz 的频率来采样就足够了。

从听声的角度来看,人类听觉范围是 20~20k Hz 内的音频,那么数字音频的采样率需要在 40k Hz 以上。

2)量化位深

量化位深是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。比如,8 bit 位深可以拥有 48 分贝的动态范围,16 bit 位深可以拥有 96 分贝的动态范围,24 bit 位深可以拥有 144 分贝的动态范围,32 bit 位深可以拥有 192 分贝的动态范围。这里位深和动态范围的数值对应关系的计算公式可以从上文声压级的计算公式推导而来。位深体现的是能表示的值的范围,比如 16 bit 能表示的最大值是 216 - 1 = 65535,那么取其最大值就能计算它能表示的最大声压级:最大声压级 = 20 × lg(65535) = 96.33。所以 16 bit 的位深可以最大表示 96 分贝。

所以这个公式是:

 动态范围位深 

人耳有大约 140 分贝的动态听力范围,类似一根针掉到地上和喷气发动机噪音的区别。当声压级达 120 分贝时,人耳将感到痛楚,无法忍受,因此,人能接受的动态范围为 0~120 分贝。在音乐厅中听乐队演奏大型交响音乐,最响的音乐片段可达 115 分贝,最弱的音乐片段约为 25 分贝,因而动态范围可达 90 分贝。当然,这是很少有的情况。通常交响音乐的动态范围约为 50~80 分贝,中、小型音乐的动态范围约在 40 分贝左右,语言的动态范围约在 30 分贝左右。

CD 音乐音频使用 16 bit 的位深,DVD 音频使用 24 bit 的位深,而大多数电话设备使用 8 bit 的位深。

为了避免运算中声音信号精度的丢失,目前业界高端音频处理系统里都是用 32 bit float 采样来进行运算的,而输出的时候转化为 16 bit。

3)声道

声道是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。

  • 单声道(Mono):是以单个声道来重现声音。它只用了一个麦克风,一个扬声器或是耳机、并联扬声器,并从同样的信号路径送入信号,在并联扬声器中,虽有多个扬声器,但每个扬声器送入的仍是同一信号。

  • 立体声(Stereo):是使用两个或多个独立的音效通道,在一对以对称方式配置的扬声器上出现。以此方法所发出的声音,在不同方向仍可保持自然与悦耳。

  • 5.1 声道:包含一个正面声道、左前方声道、右前方声道、左环绕声道、右环绕声道,以及一个用来重放 120 Hz 以下超低频的声道。最早应用于早期的电影院,如杜比 AC-3。

  • 7.1 声道:在 5.1 声道的基础上,把左右的环绕声道拆分为左右环绕声道以及左右后置声道。主要应用于蓝光以及现代的电影院。

图像的数字化跟声音的数字化也类似,最终都是要把模拟信号转换为数字信号,这种转换包括两种处理过程:采样量化

为了产生一幅数字图像,我们需要把连续的感知数据转换为数字形式。一幅平面图像中各个点的颜色值可以用其位置坐标 (x, y) 的函数 f(x, y) 来描述。显然,由于图像的 x、y 坐标和颜色值可能都是连续的,f(x, y) 作为二维连续函数,会有无穷多个取值。这种用连续函数表示的图像无法用计算机进行处理,也无法在各种数字系统中传输和存储,所以必须在坐标值和颜色值上将连续的模拟信号转换为离散的数字信号。对坐标值的数字化称为采样,对颜色值的数字化称为量化。

经过数字化处理后的图像包含如下几个基本属性:

  • 图像分辨率

  • 像素深度

1)图像分辨率

我们经常听到的一种图像分辨率的说法是:这张图片分辨率是 1024 x 1024 像素。但图像大小本身其实并不能告诉我们全部内容,如果没有规定图像包含的空间维度信息,这种说法意义不大。

图像空间分辨率的度量必须针对空间单位来规定才有意义,所以这里探讨的图像分辨率也称为空间分辨率,表示图像中可辨别的最小细节的度量。空间分辨率有很多方法来说明,其中最通用的是单位距离线对数单位距离点数(像素数)

2)像素深度

像素深度决定了图像每个像素的颜色级数。对于灰度图像,则决定了每个像素的灰度级数。像素深度通常是 2 的整数次幂,比如,当像素深度为 24 位时,那么每个像素的颜色可以是 16777216(224)种颜色中的一种。

提高像素深度,每个像素能显示的颜色种类也就更多了,图像也就更细腻自然。但受到人眼分辨率的限制,像素深度不一定要特别大,人类眼睛感知的颜色种类的上限大概是 1000 万种颜色,24 位的颜色深度已经完全够用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值