音视频基础知识_手机录视频的声音采样率是多少-CSDN博客

本文链接：https://blog.csdn.net/Timmy_zzh/article/details/105316340

什么是音频
什么是视频
编解码

一.声音
1.1.声音是由物体振动而产生的波
1.2.声音的三要素：频率，振幅，波形
a.频率代表音阶的高低
b.振幅代表响度
c.波形代表音色
1.3.声音的采集，保存，和播放时如何实现的？
场景：打开手机自带的录音软件，通过手机麦克风说话，就可以将说话内容保存在存储卡中，点击后手机会播放刚刚说的话，这一过程是如何实现的呢?
1.4.数字音频
a.采样：在时间轴上对信号进行数字化。
人类耳朵听力的频流范围大约是20Hz~20kHz,根据奈奎斯特定理按比声音最高频流高2倍以上的频率对声音进行采样的数字信号可以完整保留原始信号中的信息。
采样率：指每秒采样点个数，常用44.1kHz
b.量化：指在振幅轴上对信号进行数字化
采样精度：通常用16比特的二进制信号来表示一个声音的采样
c.声道：通常使用2声道
比特率：1秒内音频数据的容量大小，计算公式为：采样率 * 采样精度 * 声道数
1.5.音频编码
PCM：脉冲编码调制(Pulse Code Modulation的缩写)，是音频的裸数据格式
当我们要将音频数据通过网络进行传输时，会发现pcm数据量太大（1分钟10M左右），所以必须对其进行压缩编码
常用编码格式有：WAV，MP3，AAC，Ogg

二.视频
2.1.视频是由一幅幅图像组成的
每幅图像是由一个个像素点组成，每个像素点是由红绿蓝三原色组成。
2.2.图像的数值表示
a.RGB
b.YUV：Y表示亮度，U和V表示色度
2.3.YUV与RGB的转换
YUV(256 级别) 可以从8位 RGB 直接计算：
Y = 0.299 R + 0.587 G + 0.114 B
U = - 0.1687 R - 0.3313 G + 0.5 B + 128
V = 0.5 R - 0.4187 G - 0.0813 B + 128

反过来，RGB 也可以直接从YUV (256级别) 计算:
R = Y + 1.402 (Cr-128)
G = Y - 0.34414 (Cb-128) - 0.71414 (Cr-128)
B = Y + 1.772 (Cb-128)

2.4.视频编码
MPEG算法：适用于动态视频的压缩算法，除了对单幅图像进行编码外，还利用图像序列中的相关原则去除冗余。
H.264标准
2.5.IPB帧
I帧：关键帧，也叫帧内编码帧，I帧可去除视频的空间冗余信息
P帧：前向预测编码帧
B帧：双向预测帧，根据当前帧前面和后面已编码帧来压缩数据，达到编码帧之间的时间冗余信息
2.6.PTS和DTS
DTS：Decoding Time Stamp;用于确定视频的解码时间
PTS：Presentation Time Stamp,用于确定视频的播放时间