MPEG音频编码原理及编码器调试

一颗吴磊

已于 2022-07-05 21:42:08 修改

阅读量731

点赞数

文章标签：音视频

于 2022-07-05 21:39:46 首次发布

本文链接：https://blog.csdn.net/WU1055353244/article/details/125627679

版权

本文深入探讨了MPEG音频编码的基本思想和心理声学模型，包括子带分析、听觉阈值和掩蔽效应。MPEG-1标准定义了两种心理声学模型，影响了编码质量和复杂度。临界频带的概念被用来描述人耳对不同频率声音的感知，为音频压缩提供了理论基础。

摘要由CSDN通过智能技术生成

一、MPEG音频编码原理

MPEG的音频编码主要采用了心理声学模型

基本思想
通过子带分析滤波器组使信号具有高的时间分辨率，确保在短暂冲击信号情况下，编码的声音信号具有足够高的质量。

又可以使信号通过FFT运算具有高的频率分辨率，因为掩蔽阈值是从功率谱密度推出来的。
在低频子带中，为了保护音调和共振峰的结构，就要求用较小的量化阶、较多的量化级数，即分配较多的位数来表示样本值。而话音中的摩擦音和类似噪声的声音，通常出现在高频子带中，对它分配较少的位数

心理声学模型
MPEG-1标准定义了两个模型。

心理声学模型 1：计算复杂度低
但对假设用户听不到的部分压缩太严重
心理声学模型 2：提供了适合Layer 3编码的更多特征
实习实现的模型复杂度取决于所需要的压缩因子。

听觉阈值
听觉系统中存在一个听觉阈值电平，低于这个电平的声音信号就听不到听觉阈值的大小随声音频率的改变而改变一个人是否听到声音取决于声音的频率，以及声音的幅度是否高于这种频率下的听觉阈值。
频域掩蔽
听觉阈值电平是自适应的，会随听到的不同频率声音而发生变化

临界频带
临界频带是指当某个纯音被以它为中心频率、且具有一定带宽的连续噪声所掩蔽时，如果该纯音刚好被听到时的功率等于这一频带内的噪声功率，这个带宽为临界频带宽度。

掩蔽效应在一定频率范围内不随带宽增大而改变，直至超过某个频率值。通常认为从20Hz到16kHz有25个临界频带，单位为Bark。 1 Bark = 一个临界频带的宽度。

人类听觉系统
人类听觉系统可以大致等效为在0 Hz—20 kHz范围内的25个重叠的带通滤波器组。

人耳在噪声中听某一纯音信号时，只启用中心频率与信号频率相同的那个听觉滤波器，且只有纯音信号和在通带范围内的部分信号可通过该滤波器。只有通过该滤波器的噪声才对掩蔽起作用；
聆听复音时启动多个听觉滤波器。听觉能够计算各滤波器输出端的信噪比。当信噪比达到或者超过听阈因子时，即可听到该频率成分。

int main (int argc, char **argv)
{
  typedef double SBS[2][3][SCALE_BLOCK][SBLIMIT];
  SBS *sb_sample;
  typedef double JSBS[3][SCALE_BLOCK][SBLIMIT];
  JSBS *j_sample;
  typedef double IN[2][HAN_SIZE];
  IN *win_que;
  typedef unsigned int SUB[2][3][SCALE_BLOCK][SBLIMIT];
  SUB *subband;

  frame_info frame;								//头信息、比特分配表、声道数、子带数等信息
  frame_header header;							//头信息的内容
  char original_file_name[MAX_NAME_SIZE];		//输入文件名
  char encoded_file_name[MAX_NAME_SIZE];		//输出文件名
  short **win_buf;
  static short buffer[2][1152];
  static unsigned int bit_alloc[2][SBLIMIT], scfsi[2][SBLIMIT];
  static unsigned int scalar[2][3][SBLIMIT], j_scale[3][SBLIMIT];
  static double smr[2][SBLIMIT], lgmin[2][SBLIMIT], max_sc[2][SBLIMIT];
  // FLOAT snr32[32];
  short sam[2][1344];		/* was [1056]; */
  int model, nch, error_protection;
  static unsigned int crc;
  int sb, ch, adb;
  unsigned long frameBits, sentBits = 0;
  unsigned long num_samples;
  int lg_frame;
  int i;

  /* Used to keep the SNR values for the fast/quick psy models */
  static FLOAT smrdef[2][32];					//各个子带

  static int psycount = 0;
  extern int minimum;

  time_t start_time, end_time;
  int total_time;

  sb_sample = (SBS *) mem_alloc (sizeof (SBS), "sb_sample");
  j_sample = (JSBS *) mem_alloc (sizeof (JSBS), "j_sample");
  win_que = (IN *) mem_alloc (sizeof (IN), "Win_que");
  subband = (SUB *) mem_alloc (sizeof (SUB), "subband");
  win_buf = (short **) mem_alloc (sizeof (short *) * 2, "win_buf");

  /* clear buffers */
  memset ((char *) buffer, 0, sizeof (buffer));
  memset ((char *) bit_alloc, 0, sizeof (bit_alloc));
  memset ((char *) scalar, 0, sizeof (scalar));
  memset ((char *)