【音视频原理】音频编解码原理 ④ ( 音频压缩技术 | 分析 音频采样 占用的 带宽 和 空间 | 人耳听觉 “ 掩蔽效应 “ | 频谱掩蔽效应 | “ 掩蔽阈值 “ 升高的情况 | 时域掩蔽效应 )





一、音频压缩技术



1、分析 音频采样 占用的 带宽 和 空间


没有经过压缩的 , 原始音频采样 , 是很大的 , 占用的带宽和磁盘空间极大 ;


如 : 采样频率为 44100 Hz , 采样位数是 16 位 ( 单个采样 2 字节 ) , 采样的通道数是 双声道立体声 , 则 该音频的比特率 为 :

44100 × 16 × 2 = 1 , 411 , 200 44100 \times 16 \times 2 = 1,411,200 44100×16×2=1,411,200

该音频一秒钟的比特数为 1411200 比特 ;

该数据量 为 1411200 ÷ 8 = 176400 1411200 \div 8 = 176400 1411200÷8=176400 字节 , 大约 172MB ;


从数据量分析 : 该 音频 , 1 秒 需要 传输 172MB 的数据 , 1 首歌 3 分钟 , 需要 30G 的空间 ;


从带宽分析 : 平时说的 1M 的带宽 , 是 1Mbps , 每秒钟只能传输 1Mb 的数据 ; 上述音频 1 秒钟需要传输 44100 × 16 × 2 = 1 , 411 , 200 44100 \times 16 \times 2 = 1,411,200 44100×16×2=1,411,200 比特 , 也就是 1.4112 Mb 的数据 , 至少需要 1.4112 Mbps 的带宽 , 才能传输一个音频 , 显然 这是 不可接受的 ;

云服务器 每 1 Mbps 的带宽 , 都是 100 元每月 , 都用来传输音频 , 太贵了 ;


2、音频 压缩技术


音频 压缩技术 就是在 保证 声音信号 在 听觉方面 ( 20Hz ~ 20000Hz 之间 的 频率 ) 不失真 的前提下 , 对 数字音频信号 进行 压缩 , 降低数据量 ;


数字音频压缩编码 , 就是 删除 声音信号 中 冗余 的信息 实现的 , 冗余信息 指的是 不能被 人耳 感知 的信号 ,

  • 如 : 低于 20Hz 的信号 , 高于 20000Hz 的信号 ,
  • 这些信号 对 声音的 音色 , 音调 没有任何影响 ,
  • 删除这些信息 , 声音听起来也不会有太大变化 ;

3、人耳听觉 " 掩蔽效应 "


音频压缩编码 中 , 人耳 " 听觉范围 " 之外的信号 , 就是 " 冗余信号 " ;

人耳 听觉 还有一种 生理 和 心里 声学 现象 , 那就是 当 强音信号 与 弱音信号 同时存在时 , 弱音信号 会被 强音信号 " 掩蔽 " ;

注意 : 上述 强音信号 与 弱音信号 都是 处于 听觉范围 ( 20Hz ~ 20000Hz ) 之内的 ;

弱音信号 如果被 强音信号 " 掩蔽 " , 即使 弱音信号 处于 听觉范围 ( 20Hz ~ 20000Hz ) 之内 , 也会被视为 " 冗余信号 " ;


在 " 掩蔽效应 " 中 , 主要 表现在 " 频谱掩蔽效应 " 和 " 时域掩蔽效应 " 两个方面 ;





二、频谱掩蔽效应



1、频谱 " 掩蔽效应 "


下图中 ,

  • 横坐标 是 音频信号 的 频率值 , 单位 赫兹 Hz ;
  • 纵坐标 是 音频信号 的 声音强度 , 单位 分贝 dB ;
  • 纵坐标 的 声音强度 可以看做是 频率 的 能量值 ;

在这里插入图片描述

掩蔽阈值 : 当一个 频率 的 声音强度 小于 某个阈值 时 , 人耳就听不到了 , 如下图所示 , 下图 红色的线就是掩蔽阈值 ;

在这里插入图片描述

  • 在 0.02 kHz 的频率下 , 对应 20Hz 频率 , 声音强度要达到 70 分贝 时 , 才能被听到 , 如果 声音强度 低于 70 分贝 , 就听不到了 , 这部分 听不到的 信号就是冗余信号 , 不用被编码 ;
    在这里插入图片描述

  • 在 2 ~ 5 kHz 的频率下 , 很小的 声音 , 就能被听到 ,

在这里插入图片描述
" 掩蔽阈值 " 之下 的 声音信号 , 可以被作为 " 冗余信号 " , 直接丢弃 , 不用被编码 ;


2、" 掩蔽阈值 " 升高的情况


当 某个 频率 的 声音信号 有较大的能量时 , 即 某个频率的声音信号 强度很大时 , 该 频率 附近的 掩蔽阈值 就会提高很多 ;

下图中 , 大约在 0.3kHz 的位置 , 该频率 的 声音信号能量很大 , 大约为 60 分贝 , 此时 该频率 ( 0.3kHz ) 附近的信号的 掩蔽阈值会升高 ,

下图中 1.0kHz 到 1kHz 频率范围内的 声音信号 的 掩蔽阈值 会由 红色的曲线 变为 蓝色曲线 , 掩蔽阈值 升高了 ,

该频率范围 ( 1.0kHz 到 1kHz 频率范围 ) 内 , 声音 高于 蓝色 的 掩蔽阈值 强度 , 才能被人耳听到 ;

在这里插入图片描述

" 掩蔽阈值 " 之下 的 声音信号 , 可以被作为 " 冗余信号 " , 直接丢弃 , 不用被编码 ;





三、时域掩蔽效应



强音信号 和 弱音信号 同时出现 , 或 前后时间接近 相继出现时 , 弱音信号 会被 强音信号 " 掩蔽 " , 这就是 " 时域掩蔽效应 " ;

" 时域掩蔽效应 " 的原理是 : 当 强音信号 出现时 , 会 引起听觉神经的强烈反应 , 该反应会 在一定时间内抑制对弱信号的感知 ; 这种 抑制作用 的 持续时间 取决于 强音信号的 强度 和 持续时间 , 以及 弱音信号 的频率和强度等因素 ;

借助 人耳听觉 的 该特性 , 可以 将 被 时域掩蔽 的 弱音信号 , 当做 " 冗余信号 " 不进行 音频编码 , 这样就减少了编码数据量 ;


" 时域掩蔽效应 " 分为 三种情况 :

  • 超前掩蔽 : 指人耳在 听到 强音信号 之前的短暂时间内 , 已经存在的 弱音信号 会被 掩蔽 而听不到 ;
  • 同时掩蔽 : 当 强音信号 与 弱音信号 同时存在时 , 弱音信号 会被强信号所掩蔽而听不到 ;
  • 滞后掩蔽 : 当 强音信号 消失后 , 需经过 较长的一段时间 才能重新听见 弱音信号 ;

在这里插入图片描述

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值