音视频学习日记
笔记记录的不一定都正确,仅供参考,有错误欢迎提出。
-
视频的概念
视频(Video)泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传 送与重现的各种技术。而连续的图像变化每秒超过24帧时,我们人眼就会默认这样的画面就是视频。
-
视频帧
帧是视频的一个基本概念,表示一个画面,一个视频就是由许许多多帧组成的,现在视频基本是由24,30,60帧等组成的。
-
帧率
帧率是单位时间内帧的数量,单位:帧/秒 或 fps(framespersecond),一般帧率越高,画面越顺畅。
-
常见的帧率
- 24/25fps:24或25每秒一帧,多用于现在的电影帧率
- 30/60fps:30或60每秒一帧,一般用于游戏的帧率
-
色彩空间
- RGB:R代表红色,G代表绿色,B代表蓝色,用过三原色可以混合出所有颜色。
- YUV:Y代表亮度,U代表蓝色通道和亮度的差值,V代表红色通道和亮度的差值。
-
RGB和YUV的换算
Y = 0.299R + 0.587G + 0.114B
U = -0.147R - 0.289G + 0.436B
V = 0.615R - 0.515G - 0.100B
R = Y + 1,14V
G = Y - 0.39U - 0.58V
B = Y+2.03U
-
音频的概念
音频数据的承载方式最常用的是脉冲编码调制(PCM)。
PCM的采集步骤分为:模拟信号 -> 采样 -> 量化 -> 编码 -> 数字信号
根据奎奈斯特采样定理,采样频率应该不小于模拟信号频谱中最高频率的2倍,例如人最多能听到的频率为20khz,则采样频率至少为40khz,通常为44.1khz
-
采样率
采样率:采样的频率,采样率至少要大于原声的2倍
采样位数:波形振幅在模拟信号上也是连续的样本值,而在数字信 号中,信号一般是不连续的,所以模拟信号量化以后,只能取一个近似的整数值,为了记录 这些振幅值,采样器会采用一个固定的位数来记录这些振幅值,通常有8位、16位、32位。 注意:位数越多,记录的值越准确,还原度越高。但是占用的硬盘空间越大。
-
音频编码
由于数字信号都是由0和1组成的数据,我们需要先将采样得到的波形的幅度值转换成一系列0和1的数据进行存储,这个过程就是编码的过程,最后得到的就是数字信号。
-
声道数
- 单身道:一个声道
- 双声道:两个声道
- 立体声道:默认两个声道
- 立体声道(4声道):四个声道
注意:声道数是指支持能不同发声的音响个数
-
音频格式
常见的音频格式::CD格式、WAVE(*.WAV)、 AIFF、MP3、MIDI、AAC、WMA、 OggVorbis。
-
视频编码
- H26x(1/2/3/4/5)系列由ITU(International Telecommunication Union)国际电讯 联盟主导
- MPEG(1/2/3/4)系列由MPEG(MovingPictureExperts Group,ISO旗下的组织) 主导。
-
音频编码
常见的音频编码::WAV、MP3、WMA、APE、FLAC、AAC
我以AAC为主进行介绍
-
AAC格式
- ADIF:AudioData Interchange Format。音频数据交换格式
ADIF 只有一个统一的头,所以必须得到所有的数据后解码
ADIF 数据格式: header | raw_data
2. ADTS:AudioDataTransport Stream。音频数据传输流。
ADTS可以在任意帧解码,它每一帧都有头信息。
ADTS 一帧 数据格式(中间部分,左右省略号为前后数据帧):