- AAC in some container format (FLV, MP4, MKV etc.) need "aac_adtstoasc" bitstream filter (BSF)
AAC编解码库
- FAAC, FAAD/FAAD2 ---编码只有AAC LC
- neroAACenc ---非商业可以使用(提供编码工具)
- FFmpeg's native AAC encoder(part of libavcodec), experimental by the developers as of December 2010 ---只有AAC LC,且质量不好
- libvo_aacenc, the Android VisualOn AAC encoder ---只有AAC LC, opencore-amr-vo-aacenc,只有编码
- libfdk-aac, the Fraunhofer FDK AAC libray ---包含到HE-AACv2,且性能较好 opencore-amr-fdk-aac
- libaacplus, 3GPP released reference implementations 3GPP High Efficiency Advanced Audio Codec (HE-AAC) Codec (3GPP TS 26.410 V 8.0.0). --只有编码,“Enhanced aacPlus general audio codec; Floating-point ANSI-C code”
AAC介绍
AAC共有9种规格,以适应不同的场合的需要:
a) MPEG-2 AAC LC 低复杂度规格(Low Complexity)
b) MPEG-2 AAC Main 主规格
c) MPEG-2 AAC SSR 可变取样率规格(Scaleable Sample Rate)
d) MPEG-4 AAC LC 低复杂度规格(Low Complexity),现在的手机比较常见的MP4文件中的音频部份就包括了该规格音频文件
e) MPEG-4 AAC Main 主规格
f) MPEG-4 AAC SSR 可变取样率规格(Scaleable Sample Rate)
g) MPEG-4 AAC LTP 长时期预测规格(Long Term Predicition)
h) MPEG-4 AAC LD 低延迟规格(Low Delay)
i) MPEG-4 AAC HE 高效率规格(High Efficiency)
现如今常见的 AAC规格有三种:
LC-AAC:最基本的,低复杂度编码。
HE-ACC:AACPlus v1,高效率编码,这里引入了SBR[频段复制技术]技术,又称为AAC+技术。
HE-AAC-V2:AACPlus v2,在AAC+的基础之上又引入了PS[参数化立体声]技术。
他们三个的关系如下图所示:
HE:“High Efficiency”(高效性)。HE-AAC v1(又称AACPlusV1,SBR),用容器的方法实现了AAC(LC)和SBR技术。SBR其实代表的是Spectral Band Replication(频段复制)。简要叙述一下,音乐的主要频谱集中在低频段,高频段幅度很小,但很重要,决定了音质。如果对整个频段编码,若是为了 保护高频就会造成低频段编码过细以致文件巨大;若是保存了低频的主要成分而失去高频成分就会丧失音质。SBR把频谱切割开来,低频单独编码保存主要成分, 高频单独放大编码保存音质,“统筹兼顾”了,在减少文件大小的情况下还保存了音质,完美的化解这一矛盾。
HEv2:用容器的方法包含了HE-AAC v1和PS技术。PS指“parametric stereo”(参数立体声)。原来的立体声文件文件大小是一个声道的两倍。但是两个声道的声音存在某种相似性,根据香农信息熵编码定理,相关性应该被去 掉才能减小文件大小。所以PS技术存储了一个声道的全部信息,然后,花很少的字节用参数描述另一个声道和它不同的地方。
LC-AAC,HE-AAC,HE-AAC v2比特率和主观质量之间的关系。由图可见,在低码率的情况下,HE-AAC,HE-AAC v2编码后的音质要明显好于LC-AAC。
ADTS全称是(Audio Data Transport Stream),是AAC的一种十分常见的传输格式。
这种格式的特征是它是一个有同步字的比特流,解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。这种格式可以用于广播电视。
记得第一次做demux的时候,把AAC音频的ES流从FLV封装格式中抽出来送给硬件解码器时,不能播;保存到本地用pc的播放器播时,我靠也不能播。当时崩溃了,后来通过查找资料才知道。一般的AAC解码器都需要把AAC的ES流打包成ADTS的格式,一般是在AAC ES流前添加7个字节的ADTS header。也就是说你可以吧ADTS这个头看作是AAC的frameheader。
ADTS AAC
| ||||||
ADTS_header | AAC ES | ADTS_header | AAC ES |
...
| ADTS_header | AAC ES |
ADTS 头中相对有用的信息,如:采样率、声道数、帧长度,每一个带ADTS头信息的AAC流会清晰的告送解码器他需要的这些信息。
ADTS的头信息为两部分组成,其一为固定头信息,紧接着是可变头信息。
一般情况下ADTS的头信息都是7个字节,分为2部分:
adts_fixed_header();
adts_variable_header();
固定头信息中的数据每一帧都相同,而可变头信息则在帧与帧之间可变,一般情况下ADTS的头信息都是7个字节,分为2部分,固定头占28位,可变头占28位。
ADTS 的固定头信息:
syncword :同步头 总是0xFFF, all bits must be 1,代表着一个ADTS帧的开始
ID:MPEG Version: 0 for MPEG-4, 1for MPEG-2
Layer:always: '00'
profile:第三个字节的前两个bit,表示使用哪个级别的AAC,有些芯片只支持AAC LC 。在MPEG-2 AAC中定义了3种:
sampling_frequency_index:第三个字节的第3到第7bit,表示使用的采样率下标,通过这个下标在 Sampling Frequencies[ ]数组中查找得知采样率的值。
There are 13 supported frequencies:
- 0: 96000 Hz 1: 88200 Hz 2: 64000 Hz 3: 48000 Hz 4: 44100 Hz 5: 32000 Hz 6: 24000 Hz 7: 22050 Hz 8: 16000 Hz
- 9: 12000 Hz 10: 11025 Hz 11: 8000 Hz 12: 7350 Hz 13: Reserved 14: Reserved 15: frequency is written explictly
channel_configuration: 表示声道数
- 0: Defined in AOT Specifc Config
- 1: 1 channel: front-center
- 2: 2 channels: front-left, front-right
- 3: 3 channels: front-center, front-left, front-right
- 4: 4 channels: front-center, front-left, front-right, back-center
- 5: 5 channels: front-center, front-left, front-right, back-left, back-right
- 6: 6 channels: front-center, front-left, front-right, back-left, back-right, LFE-channel
- 7: 8 channels: front-center, front-left, front-right, side-left, side-right, back-left, back-right, LFE-channel
- 8-15: Reserved
ADTS的可变头信息:
frame_length : 一个ADTS帧的长度包括ADTS头和AAC原始流.
adts_buffer_fullness:0x7FF 说明是码率可变的码流
详细说明下ADTS头的重要数据部分:syncword 同步字The bit string ‘1111 1111 1111’,说明一个ADTS帧的开始。
ID MPEG 标示符, 设置为1.
layer Indicates which layer is used. Set to ‘00’
protection_absent 表示是否误码校验
profile 表示使用哪个级别的AAC,如01 Low Complexity(LC)--- AACLC
sampling_frequency_index 表示使用的采样率下标
sampling_frequency_index sampling frequeny [Hz]
0x0 96000
0x1 88200
0x2 64000
0x3 48000
0x4 44100
0x5 32000
0x6 24000
0x7 22050
0x8 16000
0x9 2000
0xa 11025
0xb 8000
0xc reserved
0xd reserved
0xe reserved
0xf reserved
channel_configuration 表示声道数
frame_length 一个ADTS帧的长度包括ADTS头和raw data block.
adts_buffer_fullness 0x7FF 说明是码率可变的码流
number_of_raw_data_blocks_in_frame
表示ADTS帧中有number_of_raw_data_blocks_in_frame + 1个AAC原始帧.
所以说number_of_raw_data_blocks_in_frame == 0 表示说ADTS帧中有一个AAC数据块并不是说没有。(一个AAC原始帧包含一段时间内1024个采样及相关数据)
封包
在CMMB中,采用AAC音频压缩标准,默认状况下,编码参数如下:双声道,采样率24KHZ,帧长变长,码流可变码率的码流,一般采用的AAC profile为AAC-LC。将从CMMB复用帧解析的一个AAC原始帧封装为ADTS帧的方法如下:
uint8 aac_buf[ADTS_FRAME_SIZE]={0x0ff,0x0f9,0x058,0x80,0,0x1f,0xfc};
从上述7个字节分析音频参数如下:
synword--0xfff
ID:0x1--- 1--- MPEG2 identifier,
LAYER--00
protection_absent ---01
profile--01 1 Low Complexity profile (LC) AAC-LC
smaping_freuency_index---0110-->0x06--->采样率24KHZ
channel_configuration --- aac_buf[3] = 0x08---->2---->双声道。。
adts_buffer_fullness--->0x7ff 码率可变的码流
现插入长度参数 wDataLen;
void OnAudioAacFrame(byte* data, uint16 wDataLen)
{
unsigned int num_data_block = wDataLen / 1024;
uint16 frame_Length;
frame_Length = wDataLen + 7;
/* frame size over last 2 bits */
aac_buf[3] |= (frame_length & 0x1800) >> 11;// the upper 2 bit
/* frame size continued over full byte */
aac_buf[4] = (frame_length & 0x1FF8) >> 3;// the middle 8 bit
/* frame size continued first 3 bits */
aac_buf[5] |= (frame_length & 0x7) << 5;//the last 3 bit
aac_bug[6] |= num_data_block & 0x03; //Set raw Data blocks.
emcpy(&aac_buf[7],data,wDataLen);
//形成一个ADTS帧写入文件。
fwrite(aac_buf,wDataLen+7,sizeof(byte),f_audio);
}
ffmpeg下adtsenc.c:
/*写adts头,共7个字节,adts_fixed_header,adts_variable_header各写28bit*/
/* adts_fixed_header */
put_bits(&pb, 12, 0xfff); /* syncword */
put_bits(&pb, 1, 0); /* ID */
put_bits(&pb, 2, 0); /* layer */
put_bits(&pb, 1, 1); /* protection_absent */
put_bits(&pb, 2, ctx->objecttype); /* profile_objecttype */
put_bits(&pb, 4, ctx->sample_rate_index);
put_bits(&pb, 1, 0); /* private_bit */
put_bits(&pb, 3, ctx->channel_conf); /* channel_configuration */
put_bits(&pb, 1, 0); /* original_copy */
put_bits(&pb, 1, 0); /* home */
/* adts_variable_header */
put_bits(&pb, 1, 0); /* copyright_identification_bit */
put_bits(&pb, 1, 0); /* copyright_identification_start */
put_bits(&pb, 13, full_frame_size); /* aac_frame_length */
put_bits(&pb, 11, 0x7ff); /* adts_buffer_fullness */
put_bits(&pb, 2, 0); /* number_of_raw_data_blocks_in_frame */
flush_put_bits(&pb);