【音视频原理】音频编解码原理 ④ ( 音频压缩技术 | 分析音频采样占用的带宽和空间 | 人耳听觉 “ 掩蔽效应 “ | 频谱掩蔽效应 | “ 掩蔽阈值 “ 升高的情况 | 时域掩蔽效应 )

最新推荐文章于 2024-07-30 00:11:53 发布

韩曙亮

最新推荐文章于 2024-07-30 00:11:53 发布

阅读量2.3k

点赞数 40

分类专栏：音视频原理文章标签：音视频音频压缩音频编码时域掩蔽效应频域掩蔽效应 pcm 声音

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-NC-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shulianghan/article/details/135886197

版权

音视频原理专栏收录该内容

14 篇文章

订阅专栏

文章目录

一、音频压缩技术
二、频谱掩蔽效应
- 1、频谱 " 掩蔽效应 "
- 2、" 掩蔽阈值 " 升高的情况
三、时域掩蔽效应

一、音频压缩技术

1、分析音频采样占用的带宽和空间

没有经过压缩的 , 原始音频采样 , 是很大的 , 占用的带宽和磁盘空间极大 ;

如 : 采样频率为 44100 Hz , 采样位数是 16 位 ( 单个采样 2 字节 ) , 采样的通道数是双声道立体声 , 则该音频的比特率为 :

$44100 \times 16 \times 2 = 1,411,200$

该音频一秒钟的比特数为 1411200 比特 ;

该数据量为 $1411200 \div 8 = 176400$ 字节 , 大约 172MB ;

从数据量分析 : 该音频 , 1 秒需要传输 172MB 的数据 , 1 首歌 3 分钟 , 需要 30G 的空间 ;

从带宽分析 : 平时说的 1M 的带宽 , 是 1Mbps , 每秒钟只能传输 1Mb 的数据 ; 上述音频 1 秒钟需要传输 $44100 \times 16 \times 2 = 1,411,200$ 比特 , 也就是 1.4112 Mb 的数据 , 至少需要 1.4112 Mbps 的带宽 , 才能传输一个音频 , 显然这是不可接受的 ;

云服务器每 1 Mbps 的带宽 , 都是 100 元每月 , 都用来传输音频 , 太贵了 ;

2、音频压缩技术

音频压缩技术就是在保证声音信号在听觉方面 ( 20Hz ~ 20000Hz 之间的频率 ) 不失真的前提下 , 对数字音频信号进行压缩 , 降低数据量 ;

数字音频压缩编码 , 就是删除声音信号中冗余的信息实现的 , 冗余信息指的是不能被人耳感知的信号 ,

如 : 低于 20Hz 的信号 , 高于 20000Hz 的信号 ,
这些信号对声音的音色 , 音调没有任何影响 ,
删除这些信息 , 声音听起来也不会有太大变化 ;

3、人耳听觉 " 掩蔽效应 "

音频压缩编码中 , 人耳 " 听觉范围 " 之外的信号 , 就是 " 冗余信号 " ;

人耳听觉还有一种生理和心里声学现象 , 那就是当强音信号与弱音信号同时存在时 , 弱音信号会被强音信号 " 掩蔽 " ;

注意 : 上述强音信号与弱音信号都是处于听觉范围 ( 20Hz ~ 20000Hz ) 之内的 ;

弱音信号如果被强音信号 " 掩蔽 " , 即使弱音信号处于听觉范围 ( 20Hz ~ 20000Hz ) 之内 , 也会被视为 " 冗余信号 " ;

在 " 掩蔽效应 " 中 , 主要表现在 " 频谱掩蔽效应 " 和 " 时域掩蔽效应 " 两个方面 ;

二、频谱掩蔽效应

1、频谱 " 掩蔽效应 "

下图中 ,

横坐标是音频信号的频率值 , 单位赫兹 Hz ;
纵坐标是音频信号的声音强度 , 单位分贝 dB ;
纵坐标的声音强度可以看做是频率的能量值 ;

在这里插入图片描述

掩蔽阈值 : 当一个频率的声音强度小于某个阈值时 , 人耳就听不到了 , 如下图所示 , 下图红色的线就是掩蔽阈值 ;

在这里插入图片描述

在 0.02 kHz 的频率下 , 对应 20Hz 频率 , 声音强度要达到 70 分贝时 , 才能被听到 , 如果声音强度低于 70 分贝 , 就听不到了 , 这部分听不到的信号就是冗余信号 , 不用被编码 ;
在 2 ~ 5 kHz 的频率下 , 很小的声音 , 就能被听到 ,

在这里插入图片描述
" 掩蔽阈值 " 之下的声音信号 , 可以被作为 " 冗余信号 " , 直接丢弃 , 不用被编码 ;

2、" 掩蔽阈值 " 升高的情况

当某个频率的声音信号有较大的能量时 , 即某个频率的声音信号强度很大时 , 该频率附近的掩蔽阈值就会提高很多 ;

下图中 , 大约在 0.3kHz 的位置 , 该频率的声音信号能量很大 , 大约为 60 分贝 , 此时该频率 ( 0.3kHz ) 附近的信号的掩蔽阈值会升高 ,

下图中 1.0kHz 到 1kHz 频率范围内的声音信号的掩蔽阈值会由红色的曲线变为蓝色曲线 , 掩蔽阈值升高了 ,

该频率范围 ( 1.0kHz 到 1kHz 频率范围 ) 内 , 声音高于蓝色的掩蔽阈值强度 , 才能被人耳听到 ;

在这里插入图片描述

" 掩蔽阈值 " 之下的声音信号 , 可以被作为 " 冗余信号 " , 直接丢弃 , 不用被编码 ;

三、时域掩蔽效应

当强音信号和弱音信号同时出现 , 或前后时间接近相继出现时 , 弱音信号会被强音信号 " 掩蔽 " , 这就是 " 时域掩蔽效应 " ;

" 时域掩蔽效应 " 的原理是 : 当强音信号出现时 , 会引起听觉神经的强烈反应 , 该反应会在一定时间内抑制对弱信号的感知 ; 这种抑制作用的持续时间取决于强音信号的强度和持续时间 , 以及弱音信号的频率和强度等因素 ;

借助人耳听觉的该特性 , 可以将被时域掩蔽的弱音信号 , 当做 " 冗余信号 " 不进行音频编码 , 这样就减少了编码数据量 ;

" 时域掩蔽效应 " 分为三种情况 :

超前掩蔽 : 指人耳在听到强音信号之前的短暂时间内 , 已经存在的弱音信号会被掩蔽而听不到 ;
同时掩蔽 : 当强音信号与弱音信号同时存在时 , 弱音信号会被强信号所掩蔽而听不到 ;
滞后掩蔽 : 当强音信号消失后 , 需经过较长的一段时间才能重新听见弱音信号 ;

在这里插入图片描述

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。