AMR音频编解码

最新推荐文章于 2016-02-18 18:50:17 发布

jinlking

最新推荐文章于 2016-02-18 18:50:17 发布

阅读量4.7k

点赞数

文章标签： interface file struct 算法 null byte

本文链接：https://blog.csdn.net/jinlking/article/details/3721585

版权

http://blog.csdn.net/dinggo/archive/2007/12/29/2002298.aspx

AMR音频编解码
<script>function StorePage(){d=document;t=d.selection?(d.selection.type!='None'?d.selection.createRange().text:''):(d.getSelection?d.getSelection():'');void(keyit=window.open('http://www.365key.com/storeit.aspx?t='+escape(d.title)+'&u='+escape(d.location.href)+'&c='+escape(t),'keyit','scrollbars=no,width=475,height=575,left=75,top=20,status=no,resizable=yes'));keyit.focus();}</script>

1. 概述

2. AMR编码

3. AMR解码

4. AMR帧读取算法

5. 参考资料

1. 概述

现在很多智能手机都支持多媒体功能，特别是音频和视频播放功能，而 AMR 文件格式是手机端普遍支持的音频文件格式。

AMR ，全称是： Adaptive Multi-Rate ，自适应多速率，是一种音频编码文件格式，专用于有效地压缩语音频率。

AMR 音频主要用于移动设备的音频压缩，压缩比非常高，但是音质比较差，主要用于语音类的音频压缩，不适合对音质要求较高的音乐类音频的压缩。

AMR 的编解码是基于“ 3GPP AMR Floating-point Speech Codec ”来做的， 3GPP 还专门开放了基于 ANSI-C 实现的编解码代码，便于我们在各种平台上进行移植。

#ifndef amrFileCodec_h

#define amrFileCodec_h

#define AMR_MAGIC_NUMBER "#!AMR/n"

#define PCM_FRAME_SIZE 160 // 8khz 8000*0.02=160

#define MAX_AMR_FRAME_SIZE 32

#define AMR_FRAME_COUNT_PER_SECOND 50

//int amrEncodeMode[] = {4750, 5150, 5900, 6700, 7400, 7950, 10200, 12200}; // amr 编码方式

typedef struct

{

char chChunkID[4];

int nChunkSize;

}XCHUNKHEADER;

typedef struct

{

short nFormatTag;

short nChannels;

int nSamplesPerSec;

int nAvgBytesPerSec;

short nBlockAlign;

short nBitsPerSample;

}WAVEFORMAT;

typedef struct

{

short nFormatTag;

short nChannels;

int nSamplesPerSec;

int nAvgBytesPerSec;

short nBlockAlign;

short nBitsPerSample;

short nExSize;

}WAVEFORMATX;

typedef struct

{

char chRiffID[4];

int nRiffSize;

char chRiffFormat[4];

}RIFFHEADER;

typedef struct

{

char chFmtID[4];

int nFmtSize;

WAVEFORMAT wf;

}FMTBLOCK;

// WAVE 音频采样频率是 8khz

// 音频样本单元数 = 8000*0.02 = 160 ( 由采样频率决定 )

// 声道数 1 : 160

// 2 : 160*2 = 320

// bps 决定样本 (sample) 大小

// bps = 8 --> 8 位 unsigned char

// 16 --> 16 位 unsigned short

int EncodeWAVEFileToAMRFile(const char* pchWAVEFilename, const char* pchAMRFileName, int nChannels, int nBitsPerSample);

// 将 AMR 文件解码成 WAVE 文件

int DecodeAMRFileToWAVEFile(const char* pchAMRFileName, const char* pchWAVEFilename);

#endif

2. AMR编码

3GPP 提供了编码代码，并提供了一个 encoder.c 程序，该程序示范了如何对一个 16 位的单声道 PCM 数据进行压缩的。（采样频率必须是 8khz ）

我对该程序进行一定的拓展，数据位支持 8 位和 16 位，可以是单声道和双声道。

l 对于 8 位 PCM 只需要将每个采样的 sample 数据位扩展成 16 位，并左移 7 位。

l 对于双声道，可以只对左声道数据进行处理，也可以只对右声道数据进行处理，或者将左右声道数据求平均值就可。

这样两个小处理，就可以将 PCM 规范成 3PGG 的编码器需要的数据格式。

代码在 amrFileEncoder.c 中。

#include "amrFileCodec.h"

// 从 WAVE 文件中跳过 WAVE 文件头，直接到 PCM 音频数据

void SkipToPCMAudioData(FILE* fpwave)

{

RIFFHEADER riff;

FMTBLOCK fmt;

XCHUNKHEADER chunk;

WAVEFORMATX wfx;

int bDataBlock = 0;

// 1. 读 RIFF 头

fread(&riff, 1, sizeof(RIFFHEADER), fpwave);

// 2. 读 FMT 块 - 如果 fmt.nFmtSize>16 说明需要还有一个附属大小没有读

fread(&chunk, 1, sizeof(XCHUNKHEADER), fpwave);

if ( chunk.nChunkSize>16 )

{

fread(&wfx, 1, sizeof(WAVEFORMATX), fpwave);

}

else

{

memcpy(fmt.chFmtID, chunk.chChunkID, 4);

fmt.nFmtSize = chunk.nChunkSize;

fread(&fmt.wf, 1, sizeof(WAVEFORMAT), fpwave);

}

// 3. 转到 data 块 - 有些还有 fact 块等。

while(!bDataBlock)

{

fread(&chunk, 1, sizeof(XCHUNKHEADER), fpwave);

if ( !memcmp(chunk.chChunkID, "data", 4) )

{

bDataBlock = 1;

break;

}

// 因为这个不是 data 块 , 就跳过块数据

fseek(fpwave, chunk.nChunkSize, SEEK_CUR);

}

// 从 WAVE 文件读一个完整的 PCM 音频帧

// 返回值 : 0- 错误 >0: 完整帧大小

int ReadPCMFrame(short speech[], FILE* fpwave, int nChannels, int nBitsPerSample)

{

int nRead = 0;

int x = 0, y=0;

unsigned short ush1=0, ush2=0, ush=0;

// 原始 PCM 音频帧数据

unsigned char pcmFrame_8b1[PCM_FRAME_SIZE];

unsigned char pcmFrame_8b2[PCM_FRAME_SIZE<<1];

unsigned short pcmFrame_16b1[PCM_FRAME_SIZE];

unsigned short pcmFrame_16b2[PCM_FRAME_SIZE<<1];

if (nBitsPerSample==8 && nChannels==1)

{

nRead = fread(pcmFrame_8b1, (nBitsPerSample/8), PCM_FRAME_SIZE*nChannels, fpwave);

for(x=0; x<PCM_FRAME_SIZE; x++)

{

speech[x] =(short)((short)pcmFrame_8b1[x] << 7);

}

else

if (nBitsPerSample==8 && nChannels==2)

{

nRead = fread(pcmFrame_8b2, (nBitsPerSample/8), PCM_FRAME_SIZE*nChannels, fpwave);

for( x=0, y=0; y<PCM_FRAME_SIZE; y++,x+=2 )

{

// 1 - 取两个声道之左声道

speech[y] =(short)((short)pcmFrame_8b2[x+0] << 7);

// 2 - 取两个声道之右声道

//speech[y] =(short)((short)pcmFrame_8b2[x+1] << 7);

// 3 - 取两个声道的平均值

//ush1 = (short)pcmFrame_8b2[x+0];

//ush2 = (short)pcmFrame_8b2[x+1];

//ush = (ush1 + ush2) >> 1;

//speech[y] = (short)((short)ush << 7);

}

else

if (nBitsPerSample==16 && nChannels==1)

{

nRead = fread(pcmFrame_16b1, (nBitsPerSample/8), PCM_FRAME_SIZE*nChannels, fpwave);

for(x=0; x<PCM_FRAME_SIZE; x++)

{

speech[x] = (short)pcmFrame_16b1[x+0];

}

else

if (nBitsPerSample==16 && nChannels==2)

{

nRead = fread(pcmFrame_16b2, (nBitsPerSample/8), PCM_FRAME_SIZE*nChannels, fpwave);

for( x=0, y=0; y<PCM_FRAME_SIZE; y++,x+=2 )

{

//speech[y] = (short)pcmFrame_16b2[x+0];

speech[y] = (short)((int)((int)pcmFrame_16b2[x+0] + (int)pcmFrame_16b2[x+1])) >> 1;

}

// 如果读到的数据不是一个完整的 PCM 帧 , 就返回 0

if (nRead<PCM_FRAME_SIZE*nChannels) return 0;

return nRead;

}

// WAVE 音频采样频率是 8khz

// 音频样本单元数 = 8000*0.02 = 160 ( 由采样频率决定 )

// 声道数 1 : 160

// 2 : 160*2 = 320

// bps 决定样本 (sample) 大小

// bps = 8 --> 8 位 unsigned char

// 16 --> 16 位 unsigned short

int EncodeWAVEFileToAMRFile(const char* pchWAVEFilename, const char* pchAMRFileName, int nChannels, int nBitsPerSample)

{

FILE* fpwave;

FILE* fpamr;

/* input speech vector */

short speech[160];

/* counters */

int byte_counter, frames = 0, bytes = 0;

/* pointer to encoder state structure */

int *enstate;

/* requested mode */

enum Mode req_mode = MR122;

int dtx = 0;

/* bitstream filetype */

unsigned char amrFrame[MAX_AMR_FRAME_SIZE];

fpwave = fopen(pchWAVEFilename, "rb");

if (fpwave == NULL)

{

return 0;

}

// 创建并初始化 amr 文件

fpamr = fopen(pchAMRFileName, "wb");

if (fpamr == NULL)

{

fclose(fpwave);

return 0;

}

/* write magic number to indicate single channel AMR file storage format */

bytes = fwrite(AMR_MAGIC_NUMBER, sizeof(char), strlen(AMR_MAGIC_NUMBER), fpamr);

/* skip to pcm audio data*/

SkipToPCMAudioData(fpwave);

enstate = Encoder_Interface_init(dtx);

while(1)

{

// read one pcm frame

if (!ReadPCMFrame(speech, fpwave, nChannels, nBitsPerSample)) break;

frames++;

/* call encoder */

byte_counter = Encoder_Interface_Encode(enstate, req_mode, speech, amrFrame, 0);

bytes += byte_counter;

fwrite(amrFrame, sizeof (unsigned char), byte_counter, fpamr );

}

Encoder_Interface_exit(enstate);

fclose(fpamr);

fclose(fpwave);

return frames;

}

3. AMR解码

3GPP 提供了解码代码，并提供了一个 decoder.c 程序，该程序示范了如何对 amr 音频进行解码。解码成一个 wave 文件（ 8khz 16 位单声道）。

解码是需要注意AMR坏帧的处理。在AMR读帧算法中有说明。

文件解码器代码在 amrFileDecoder.c 中。

#include "amrFileCodec.h"

void WriteWAVEFileHeader(FILE* fpwave, int nFrame)

{

char tag[10] = "";

// 1. 写 RIFF 头

strcpy(tag, "RIFF");

memcpy(riff.chRiffID, tag, 4);

riff.nRiffSize = 4 // WAVE

+ sizeof(XCHUNKHEADER) // fmt

+ sizeof(WAVEFORMATX) // WAVEFORMATX

+ sizeof(XCHUNKHEADER) // DATA

+ nFrame*160*sizeof(short); //

strcpy(tag, "WAVE");

memcpy(riff.chRiffFormat, tag, 4);

fwrite(&riff, 1, sizeof(RIFFHEADER), fpwave);

// 2. 写 FMT 块

strcpy(tag, "fmt ");

memcpy(chunk.chChunkID, tag, 4);

chunk.nChunkSize = sizeof(WAVEFORMATX);

fwrite(&chunk, 1, sizeof(XCHUNKHEADER), fpwave);

memset(&wfx, 0, sizeof(WAVEFORMATX));

wfx.nFormatTag = 1;

wfx.nChannels = 1; // 单声道

wfx.nSamplesPerSec = 8000; // 8khz

wfx.nAvgBytesPerSec = 16000;

wfx.nBlockAlign = 2;

wfx.nBitsPerSample = 16; // 16 位

fwrite(&wfx, 1, sizeof(WAVEFORMATX), fpwave);

// 3. 写 data 块头

strcpy(tag, "data");

memcpy(chunk.chChunkID, tag, 4);

chunk.nChunkSize = nFrame*160*sizeof(short);

fwrite(&chunk, 1, sizeof(XCHUNKHEADER), fpwave);

}

const int round(const double x)

{

return((int)(x+0.5));

}

// 根据帧头计算当前帧大小

int caclAMRFrameSize(unsigned char frameHeader)

{

int mode;

int temp1 = 0;

int temp2 = 0;

int frameSize;

temp1 = frameHeader;

// 编码方式编号 = 帧头的 3-6 位

temp1 &= 0x78; // 0111-1000

temp1 >>= 3;

mode = amrEncodeMode[temp1];

// 计算 amr 音频数据帧大小

// 原理 : amr 一帧对应 20ms ，那么一秒有 50 帧的音频数据

temp2 = round((double)(((double)mode / (double)AMR_FRAME_COUNT_PER_SECOND) / (double)8));

frameSize = round((double)temp2 + 0.5);

return frameSize;

}

// 读第一个帧 - ( 参考帧 )

// 返回值 : 0- 出错 ; 1- 正确

int ReadAMRFrameFirst(FILE* fpamr, unsigned char frameBuffer[], int* stdFrameSize, unsigned char* stdFrameHeader)

{

memset(frameBuffer, 0, sizeof(frameBuffer));

// 先读帧头

fread(stdFrameHeader, 1, sizeof(unsigned char), fpamr);

if (feof(fpamr)) return 0;

// 根据帧头计算帧大小

*stdFrameSize = caclAMRFrameSize(*stdFrameHeader);

// 读首帧

frameBuffer[0] = *stdFrameHeader;

fread(&(frameBuffer[1]), 1, (*stdFrameSize-1)*sizeof(unsigned char), fpamr);

if (feof(fpamr)) return 0;

return 1;

}

// 返回值 : 0- 出错 ; 1- 正确

int ReadAMRFrame(FILE* fpamr, unsigned char frameBuffer[], int stdFrameSize, unsigned char stdFrameHeader)

{

int bytes = 0;

unsigned char frameHeader; // 帧头

memset(frameBuffer, 0, sizeof(frameBuffer));

// 读帧头

// 如果是坏帧 ( 不是标准帧头 ) ，则继续读下一个字节，直到读到标准帧头

while(1)

{

bytes = fread(&frameHeader, 1, sizeof(unsigned char), fpamr);

if (feof(fpamr)) return 0;

if (frameHeader == stdFrameHeader) break;

}

// 读该帧的语音数据 ( 帧头已经读过 )

frameBuffer[0] = frameHeader;

bytes = fread(&(frameBuffer[1]), 1, (stdFrameSize-1)*sizeof(unsigned char), fpamr);

if (feof(fpamr)) return 0;

return 1;

}

// 将 AMR 文件解码成 WAVE 文件

int DecodeAMRFileToWAVEFile(const char* pchAMRFileName, const char* pchWAVEFilename)

{

FILE* fpamr = NULL;

FILE* fpwave = NULL;

char magic[8];

int * destate;

int nFrameCount = 0;

int stdFrameSize;

unsigned char stdFrameHeader;

unsigned char amrFrame[MAX_AMR_FRAME_SIZE];

short pcmFrame[PCM_FRAME_SIZE];

fpamr = fopen(pchAMRFileName, "rb");

if ( fpamr==NULL ) return 0;

// 检查 amr 文件头

fread(magic, sizeof(char), strlen(AMR_MAGIC_NUMBER), fpamr);

if (strncmp(magic, AMR_MAGIC_NUMBER, strlen(AMR_MAGIC_NUMBER)))

{

fclose(fpamr);

return 0;

}

// 创建并初始化 WAVE 文件

fpwave = fopen(pchWAVEFilename, "wb");

WriteWAVEFileHeader(fpwave, nFrameCount);

/* init decoder */

destate = Decoder_Interface_init();

// 读第一帧 - 作为参考帧

memset(amrFrame, 0, sizeof(amrFrame));

memset(pcmFrame, 0, sizeof(pcmFrame));

ReadAMRFrameFirst(fpamr, amrFrame, &stdFrameSize, &stdFrameHeader);

// 解码一个 AMR 音频帧成 PCM 数据

Decoder_Interface_Decode(destate, amrFrame, pcmFrame, 0);

nFrameCount++;

fwrite(pcmFrame, sizeof(short), PCM_FRAME_SIZE, fpwave);

// 逐帧解码 AMR 并写到 WAVE 文件里

while(1)

{

memset(amrFrame, 0, sizeof(amrFrame));

memset(pcmFrame, 0, sizeof(pcmFrame));

if (!ReadAMRFrame(fpamr, amrFrame, stdFrameSize, stdFrameHeader)) break;

// 解码一个 AMR 音频帧成 PCM 数据 (8k-16b- 单声道 )

Decoder_Interface_Decode(destate, amrFrame, pcmFrame, 0);

nFrameCount++;

fwrite(pcmFrame, sizeof(short), PCM_FRAME_SIZE, fpwave);

}

Decoder_Interface_exit(destate);

fclose(fpwave);

// 重写 WAVE 文件头

fpwave = fopen(pchWAVEFilename, "r+");

WriteWAVEFileHeader(fpwave, nFrameCount);

fclose(fpwave);

return nFrameCount;

}

4. AMR帧读取算法

因为可能存在异常帧，所以不一定所有的语音帧大小一致，对于跟正常帧大小不一致的，或者帧头跟正常帧头不一致的，就不交给解码器，直接抛弃该坏帧。

读取帧的算法，用 C 语言来编写， readAMRFrame.c ， JAVA 可以用类似的方法。

下面是算法描述流程图。

读首帧(标准帧)

ReadFirstAMRFrame

根据帧头计算标准帧的大小

caclAMRFrameSize

AMR音频文件流

读帧头（字节）

frameHeader

判断是否为坏帧？

读本帧音频数据

帧头 + 音频数据 = 当前帧数据

5. 参考资料

l rfc3267

http://www.rfc-editor.org/rfc/rfc3267.txt

http://ietfreport.isoc.org/rfc/PDF/rfc3267.pdf

l 3GPP TS 26.104 V 6.1.0 (2004-03)

http://www.3gpp.org/ftp/Specs/html-info/26104-CRs.htm

l 3GPP AMR Floating-point Speech Codec

http://www.3gpp.org/ftp/Specs/html-info/26104.htm

l “ amr 编程汇总”

http://blog.csdn.net/windcao/archive/2006/01/04/570348.aspx

l 关于 AMR 文件格式的解释

http://www.mcublog.com/blog/user1/11409/archives/2006/16832.html

jinlking

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫