【音视频】一篇搞懂音频相关概念

人才程序员

已于 2024-07-30 10:13:33 修改

阅读量923

点赞数 19

分类专栏：音视频基础大合集文章标签：音视频 ffmpeg c语言 c++ 语音识别视频编解码实时音视频

于 2024-07-19 19:14:36 首次发布

本文链接：https://blog.csdn.net/m0_62599305/article/details/140557554

版权

音视频基础大合集专栏收录该内容

52 篇文章 2 订阅

订阅专栏

文章目录

前言
总结

前言

在当今数字化的世界中，音频技术无处不在，从我们日常听音乐到参与视频通话，音频的质量和处理方式直接影响到我们的体验。了解音频相关的基础概念对于掌握这些技术、选择合适的设备或软件、甚至是提升创作质量都至关重要。本文将简要介绍几个关键的音频概念，包括模拟与数字音频、采样率、比特率、压缩技术等，帮助读者快速入门音频技术的基本原理和应用。

直播客户端处理流程

以下是一个简单的字符串图，用于展示直播客户端的处理流程：

用户设备
    |
    V
采集阶段
（麦克风/摄像头）
    |
    V
编码阶段
（将音频/视频转换为数字信号）
    |
    V
传输阶段
（通过网络将编码后的数据发送到服务器）
    |
    V
服务器
    |
    V
分发阶段
（服务器处理和分发数据到所有观众）
    |
    V
解码阶段
（将数据转换回音频/视频信号）
    |
    V
渲染阶段
（在用户设备上显示音频/视频）
    |
    V
用户设备

解释

用户设备：用户使用的设备，如手机或电脑。
采集阶段：设备通过麦克风和摄像头采集音频和视频数据。
编码阶段：采集到的数据被编码成数字信号，以便传输。编码会压缩数据以减少带宽需求。
传输阶段：编码后的数据通过网络发送到直播服务器。
服务器：接收并处理来自各个用户的直播数据，通常会有多台服务器处理和分发数据。
分发阶段：服务器将处理好的数据分发到所有观看直播的观众。
解码阶段：观众端的设备将接收到的数据解码回音频和视频信号。
渲染阶段：解码后的信号在观众设备上显示，完成直播的观看过程。

音频数据流

下面是一个简单的字符图，用于展示音频数据流的处理过程：

音频源
（麦克风/录音设备）
    |
    V
采样与量化
（将模拟音频信号转换为数字信号）
    |
    V
编码
（将数字信号压缩成适合传输和存储的格式）
    |
    V
传输
（通过网络或其他介质发送数据）
    |
    V
接收
（在接收端获取传输的数据）
    |
    V
解码
（将接收到的压缩数据解压为原始数字信号）
    |
    V
数字到模拟转换
（将数字信号转换回模拟信号）
    |
    V
播放
（通过扬声器或耳机输出声音）

解释

音频源：音频数据的来源，例如麦克风或录音设备。
采样与量化：将模拟音频信号转化为数字信号的过程。采样是按一定频率记录音频数据点，量化是将这些数据点转化为数字值。
编码：对数字音频信号进行压缩，以减少数据大小，便于传输和存储。编码格式可能包括 MP3、AAC 等。
传输：将编码后的音频数据通过网络或其他介质发送到目标设备。
接收：接收端获取传输过来的音频数据。
解码：将接收到的压缩数据解压为原始的数字音频信号。
数字到模拟转换：将解码后的数字音频信号转换回模拟信号。
播放：通过扬声器或耳机输出音频，使其可以被听到。

模数转换

声音的模数转换（Analog-to-Digital Conversion，简称 ADC）是将模拟声音信号转换为数字信号的过程。通俗地说，这个过程可以比作将你用录音机录下的声音变成一串数字的过程。下面是简单的解释：

模拟信号：声音在空气中是一个不断变化的波动，这种波动就是模拟信号。比如你说话时，声波在空气中传递，形成一种连续的波形。
取样：模数转换的第一步是“取样”。我们会在很短的时间间隔内测量声音的波形。就像拍照一样，每一秒钟拍很多张照片，每一张照片记录了那个时刻的声音状态。
量化：每个“照片”或采样点需要转换成一个数字值。这一步叫“量化”，它就是将声音的连续波形转换成离散的数值。这个过程是将取样点的声音强度转换为数字格式。
编码：最后，将这些数字值用特定的编码格式记录下来。这样，我们就得到了一串二进制数字，代表了声音的内容和变化。这些数字可以用计算机处理、存储和传输。

举个例子

假设你用麦克风录制了一段声音。麦克风捕捉到的声音波形是连续的（模拟信号）。在模数转换的过程中，麦克风每隔一段时间（例如每秒钟采样几千次）记录声音强度，然后将这些记录转化为数字。这些数字就像是音频的“照片”，每一张照片都记录了那个时刻的声音。最终，这些数字可以被存储在计算机中或通过网络传输到其他设备上。

通过模数转换，我们可以将连续的模拟声音转换成数字形式，这样就可以更方便地进行处理、存储和传输。

量化的基本概念

1. 采样大小（Bit Depth）

采样大小，也叫比特深度，是指在每个采样点上记录声音强度时使用的位数。简单来说，它决定了声音的“细节”有多丰富。

比喻：想象你在画一幅画，采样大小就像是你使用的画笔的粗细。画笔越粗，细节越少；画笔越细，细节越多。采样大小越大，声音的细节和动态范围就越丰富。
例子：如果采样大小是16位，就像使用了更细的画笔，每个采样点记录的声音信息更精细。常见的 CD 音质就是16位采样大小。

2. 采样率（Sampling Rate）

采样率 是指每秒钟采集音频数据的次数。换句话说，就是每秒钟“拍摄”多少张声音的“照片”。

比喻：想象你用相机拍摄视频，采样率就像是你每秒钟拍摄的照片数量。照片拍得越多，视频就越流畅。对于音频来说，采样率越高，录音的质量和细节就越好。
例子：常见的采样率是44.1kHz（每秒采样44,100次），这是 CD 音质的标准采样率。更高的采样率，比如96kHz，可以捕捉到更多的细节。

3. 声道数（Channels）

声道数 是指音频录制中使用的声道数量。简单来说，就是声音的“来源”有多少。

比喻：想象你在听音乐，一个声道就像一个喇叭。如果你有两个喇叭（立体声），声音会从两个方向传来，听起来更真实和有层次。如果你只有一个喇叭（单声道），声音就只从一个方向传来。
例子：常见的音频设置有：
- 单声道（Mono）：只有一个声道，所有声音都从一个“喇叭”出来。
- 立体声（Stereo）：两个声道，声音从两个“喇叭”出来，能产生空间感。
- 环绕声（Surround Sound）：多个声道，能模拟电影和游戏中的三维声音效果。

总结

采样大小 决定了声音的细节程度。
采样率 决定了录音的清晰度。
声道数 决定了声音的空间感。

PCM与WAV

PCM（Pulse Code Modulation，脉冲编码调制）和WAV（Waveform Audio File Format，波形音频文件格式）都是音频处理和存储中的重要概念，但它们的功能和用途有所不同。以下是它们的通俗解释：

PCM（脉冲编码调制）

PCM 是一种音频编码方法，用于将模拟声音转换成数字信号。简单来说，PCM 就像是一种把声音转换成数字的“翻译器”。

工作原理：PCM 会定期测量声音的强度，然后将这些测量值转换成数字。每一个测量值就是一个数字，代表那个时刻的声音强度。
特点：PCM 的数字音频数据非常接近原始的模拟声音，保持了很高的音质。这也是它在 CD 音质中使用的原因。

WAV（波形音频文件格式）

WAV 是一种音频文件格式，用来存储声音数据。可以把 WAV 文件想象成一个容器，里面装的是音频数据。

工作原理：WAV 文件可以包含各种音频数据，PCM 数据就是其中的一种格式。WAV 文件会把 PCM 数据保存下来，并附加一些信息（比如采样率和位深度），使得音频播放器可以正确播放这些数据。
特点：WAV 文件通常保存未压缩的 PCM 数据，因此音质很高，但文件会很大。它是音频录制和编辑中常用的一种格式，因为它简单、无损。

总结

PCM 是一种编码方法，将声音转换为数字信号，以便计算机可以处理。
WAV 是一种文件格式，用于存储音频数据，其中可以包含 PCM 编码的数据，但也可以包含其他类型的音频编码。

简单来说，PCM 是一种音频“翻译器”，而 WAV 是一种用来“保存”这些翻译结果的文件格式。

总结

掌握音频技术的基本概念可以显著提升我们在音频处理和欣赏中的体验。模拟音频和数字音频是音频处理的两个基本概念，理解它们的区别有助于我们更好地选择和使用音频设备。采样率和比特率是影响音频质量的关键因素，而压缩技术则是优化存储和传输效率的重要手段。通过这些基础知识的掌握，我们能够更好地理解音频文件的特点，做出更符合需求的音频处理和选择。