音视频系列-音频基础

最新推荐文章于 2023-11-15 14:43:09 发布

geeknonerd

最新推荐文章于 2023-11-15 14:43:09 发布

阅读量710

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lvxintd1993/article/details/117074738

版权

声音简介

定义：声音(wiki) 是振动产生的声波，通过介质（气体、固体、液体）传播并能被人或动物听觉器官所感知的波动现象。

本质：声音是一种机械波。

声音三要素

音调：声音的频率（音频），儿童 > 女生 > 男生
音量：振动的幅度（振幅），也称为音高
音色(wiki)：声音的波形，本质是谐波(wiki)，也称为音品，与材质有很大关系

图示：

pitch and loudness

timbre

心理声学

心理声学(wiki) 是研究人对声音感知的学科，即研究人对声音（包括言语和音乐）的生理和心理反应的科学。

听觉/发声范围

hearing range

heading and sounding range

音频量化

量化过程

audio quantification

基本概念

采样大小：一个采样用多少bit存放。常用16bit
采样率：采样频率 8k、16k、32k、44.1k、48k
声道数：单声道、双声道、多声道

码率计算

码率 = 采样率 × 采样大小 × 声道数

如：

采样率为44.1kHz，采样大小为16bit，双声道PCM编码的WAV文件

码率 = 44.1k × 16 × 2 = 1411.2kb/s = 176.4KB/s

音频压缩

音频压缩(wiki) 属于数据压缩的一种，用以减少音频流媒体的传输带宽需求与音频档案的存储大小。

压缩方法

无损压缩

保留原始文件的所有信息，在播放上与原始文件没有任何差别。

利用 信息冗余 进行数据压缩，是一个可逆的过程。

有损压缩

对原始文件的一些信息做一些近似处理，以得到更小的文件。

将人类心理学、听觉系统的识别都纳入压缩结果的考量，是一个不可逆的过程。

人耳听觉范围外的音频信号，以及被掩蔽掉的音频信号。

掩蔽效应

掩蔽效应(wiki)：听觉系统对一种声音的感知被另一种声音所阻碍的现象。

频域掩蔽

一种声音被另一种同时发出的声音所掩盖。

frequency masking

时域掩蔽

发生在时间上相邻的声音之间的掩蔽。

temporal masking

音频编码

编码过程

encoded process

音频文件格式

音频文件格式(wiki)：存放音频数据的文件的格式。

格式分类

无损格式：如 WAV，FLAC，APE，ALAC，WavPack(WV)
有损格式：如 MP3，AAC，Ogg Vorbis，Opus

性能比较

延迟对比

delay compare

效率对比

efficiency compare

AAC编码

AAC(wiki)：高级音频编码（Advanced Audio Coding），为一种基于MPEG-2的有损数字音频压缩的专利音频编码标准，出现于1997年。

AAC比MP3表现出更好的声音质量，目的是取代MP3格式

常用规格

AAC LC：(Low Complexity) 低复杂度规格
AAC HE V1：(High-Efficiency) AAC LC + SBR（频段复制，Spectral Band Replication）
AAC HE V2：AAC LC + SBR + PS（参数立体声，Parametric Stereo）

aac profile

数据交换格式

ADIF：(Audio Data Interchange Format) 音频数据交换格式，只能从头开始解码，常用在磁盘文件。
ADTS：(Audio Data Transport Stream) 音频传输流格式，每一帧都有一个同步字，可以在音频流的任何位置开始解码，用于数据流传输。

References:

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。