音视频基础

音视频的录制与播放流程

通过如下两个流程,大致熟悉一下音视频处理从外设到音视频的过程

  • 音视频的录制
    图片非原创

图片非原创,原图出处:音视频录制基础原理概念

大体流程为,从麦克风处采集数据(采样帧),经过音频处理将处理后,将处理后的采样帧放到(暂存)采样帧队列中,接着经过音频编码,形成音频包,放到音频包队列中。同理,在视频包队列中形成了一系列的视频包。接着将音频包和视频包一起通过复用器的音视频封装,形成一个音视频文件。
其中,时钟用于统一和控制音视频同步。

  • 音视频播放原理
    图片非原创

图片非原创,原图出处:ffplay深入解析—main函数解析篇

音视频播放可以看作是录制过程的的逆向操作,这里就不再细说了,详情看图理解

图像表示

图像基础概念

  1. 像素与像素点:像素是一个图片的基本单位,简称px,“像素”有“图像元素”之意。
  2. 分辨率,表示图像的大小,用像素来表示。图像(或视频)的分辨率是指图像的大小或尺寸。我们通常用像素表示图像的尺寸。例如2500×2000的照片就是指横向(宽)有2500个像素点,竖向(高)有2000个像素点。常说的 1080 和 720 其实是指垂直像素数,分辨率除去垂直像素,还需要考虑到水平像素数。按照 16:9 (宽 : 高) 的比例计算, 720p 的水平像素数为 720 ÷ 9 × 16 = 1280,总计像素为921600像素即大约为 92 万像素。 1080p 具有 1920 个水平像素,总计2073600 像素即约 200 万像素,是 720p 的两倍多。像素越多视频就越清晰,所以 1080p 比 720p 的视频更加清晰。 图像的分辨率越高,图像就越清晰。
  3. 位深。我们看到的彩色图片,都有三个通道,分别为红®、 绿(G)、蓝(B)通道。(如果需要透明度则还有alpha分量)通常每个通道用8bit表示, 8bit能表示256种颜色,所以可以组成256256256=16,777,216 = 1677万种颜色。这里的8bit就是我们讲的位深。 每个通道的位深越大,能够表示的颜色值就越大,比如现在高端电视说的10bit色彩,即是每个通道用10bit表示,每个通道有1024种颜色。 102410241024约为10,7374万色=10亿色, 是8bit的64倍。常见的颜色还是8bit居多。
  4. 帧率。帧率即 FPS(每秒有多少帧画面),经常玩游戏的同学应该会对这个词很熟悉。我们玩游戏时, FPS 帧率越高就代表游戏画面越流畅,越低则越卡顿。视频也是如此。由于视觉图像在视网膜的暂时停留,一般图像帧率能达到24帧,我们就认为图像是连续动态的。帧率越高,画面越流畅,需要的设备性能也越高。
  5. 码率。视频文件在单位时间内使用的数据流量。比如1Mbps。大多数情况下码率越高 分辨率越高,也就越清晰。但模糊的视频文件大小(码率)也可以很大,分辨率小的视频文件可能也比分辨率大的视频文件清晰。其中,bps(bits per second)是数据传输速率的常用单位,意思是比特率、比特/秒、位/秒、每秒传的位数。码率与图像的清晰度呈对数关系,而不是线性增长的。
  6. Stride跨距:指在内存中每行像素所占的空间。为了实现内存对齐每行像素在内存中所占的空间并不一定是图像的宽度。Stride 就是这些扩展内容的名称, Stride 也被称作 Pitch,如果图像的每一行像素末尾拥有扩展内容, Stride 的值一定大于图像的宽度值,如下图所示:
    图片非原创
    比如分辨率638x480的RGB24图像,我们在内存处理的时候如果要以16字节对齐,则638 * 3 / 16 = 119.625不能整除,因此不能16字节对齐,我们需要在每行尾部填充6个字节。就是(638+2->640),640 * 3 / 16=120。此时该图片的Stride为1920字节。

RGB格式和YUV格式

  • RGB格式

RGB是指使用三基色(红绿蓝)合成各种颜色,我们看到的彩色图片,都有三个通道,分别为红、绿、蓝通道,如果需要透明度则还有alpha分量。通常每个通道用8bit表示,8bit能表示256种颜色,所以可以组成 256256256/3=1677万种颜色。这里的8bit就是我们讲的位深。一张图片有R-G-B的顺序排列,也有BGR的方式排列。
例如 rgb24 表示每个像素的大小是由24位,即3个字节,则RGB三个通道每个占一个字节。
非原创图

图片非原创,原图出处:图像基础概念与YUV/RGB深入理解

  • YUV格式

和RGB格式一样,YUV格式也是一种颜色编码方法。YUV是指亮度参量和色度参量分开表示的像素格式,其中“Y”表示亮度参量,也就是灰度值,U和V表示色度参量,作用是描述影像色彩及饱和度,用于指定像素的颜色。
这样分开的好处就是不但可以避免相互干扰, 没有UV信息一样可以显示完整的图像,因而解决了彩色电视与黑白电视的兼容问题;还使得降低色度的采样率而不会对图像质量影响太大, 降低了视屏信号传输时对频宽(带宽) 的要求。
YUV是一个比较笼统地说法,针对它的具体排列方式,可以分为很多种具体的格式:
打包(packed) 格式:将每个像素点的Y、U、V分量交叉排列并以像素点为单元连续的存放在同一数组中,通常几个相邻的像素组成一个像素(macro- pixel)
平面(planar) 格式:使用三个数组分开连续的存放Y、U、V三个分量,即Y、U、V分别存放在各自的数组中。
例如YUV420就表示的是每四个Y分量共用一个U分量和一个V分量。

详情参考:图像基础概念与YUV/RGB深入理解

视频的相关概念

基础概念

视频码率:kb/s,是指视频文件在单位时间内使用的数据流量,也叫码流率。码率越大,说明单位时间内取样率越大,数据流精度就越高。

视频帧率:fps,通常说一个视频的25帧,指的就是这个视频帧率,即1秒中会显示25帧。帧率越高,给人的视觉就越流畅。

视频分辨率:分辨率就是我们常说的640x480分辨率、1920x1080分辨率,分辨率影响视频图像的大小。

I P B帧

I 帧(Intra coded frames):I帧不需要参考其他画面而生成,解码时仅靠自己就重构完整图像;

I帧图像采用帧内编码方式; I帧所占数据的信息量比较大; I帧图像是周期性出现在图像序列中的,出现频率可由编码器选择;
I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量); I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧;
I帧不需要考虑运动矢量;

P 帧(Predicted frames):根据本帧与相邻的前一帧(I帧或P帧)的不同点来压缩本帧数据,同时利用了空间和时间上的相关性。

P帧属于前向预测的帧间编码。它需要参考前面最靠近它的I帧或P帧来解码。

B 帧(Bi-directional predicted frames):B 帧图像采用双向时间预测,可以大大提高压缩倍数。

图片非原创

图片非原创,原图出处:音视频学习笔记-视频的主要概念

音频的相关概念

  1. 声音的物理性质:振动(声音是一种由物体振动引发的物理现象)波形,声音是由物体的振动产生的,这种振动引起了周围空气压强的振荡,我们称这种振荡的函数表现形式为波形频率,单位是赫兹(Hz)。千赫(kHz),即1000Hz,表示每秒振动1000次。人耳能听见的声音:20Hz~20KHz振幅,声音有振幅,振幅的主观感觉是声音的大小。振幅越大,声音越大。

  2. 数字音频:在这里插入图片描述

  3. 采样频率:根据Nyguist采样定律,要从采样中完全恢复原始信号波形,采样频率必须至少是信号中最高频率的两倍。前面提到人耳能听到的频率范围是[20H~20kHz],所以采样频率一般为44.1Khz,这样就能保证声音到达20Khz也能被数字化,从而使得经过数字化处理之后,人耳听到的声音质量不会被降低。

  4. 采样量化与编码:在这里插入图片描述

  5. 常见名词:采样频率、采样精度(采样深度)、通道数在这里插入图片描述

  6. 比特率(bps)、码率(压缩后的音频数据比特率)在这里插入图片描述

  7. 帧、帧长在这里插入图片描述

  8. 交错模式和非交错模式在这里插入图片描述

  9. 音频编码原理简介,音频的压缩及原理:数字音频压缩编码在保证信号在听觉方面不产生失真的前提下,对音频数据信号进行尽可能大的压缩,降低数据量。数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。所谓冗余成分指的是音频中不能被人耳感知到的信号,它们对确定声音的音色,音调等信息没有任何的帮助。冗余信号包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。例如,人耳所能察觉的声音信号的频率范围为20Hz~20KHz,除此之外的其它频率人耳无法察觉,都可视为冗余信号。
    掩蔽效应:此外,根据人耳听觉的生理和心理声学现象,当一个强音信号与一个弱音信号同时存在时,弱音信号将被强音信号所掩蔽而听不见,这样弱音信号就可以视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应,主要表现在频谱掩蔽效应和时域掩蔽效应。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值