基于ffmpeg的音频转码

最新推荐文章于 2024-06-30 11:03:40 发布

楠倏之语

最新推荐文章于 2024-06-30 11:03:40 发布

阅读量4.3k

点赞数

分类专栏：音频处理

本文链接：https://blog.csdn.net/u010257992/article/details/50474995

版权

音频处理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

首先引入音频帧的概念：

正常人听觉的频率范围大约在20Hz~20kHz之间。

采样频率是指将模拟声音波形进行数字化时，每秒钟抽取声波幅度样本的次数。

根据奈奎斯特采样理论，为了保证声音不失真，采样频率应该在40kHz左右。

常用的音频采样频率有8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等，

如果采用更高的采样频率，还可以达到DVD的音质。

对采样率为44.1kHz的AAC音频进行解码时，一帧的解码时间须控制在23.22毫秒内。

通常是按1024个采样点一帧

分析：

1. AAC

一个AAC原始帧包含某段时间内1024个采样点相关数据。

用1024主要是因为AAC是用的1024点的mdct。

音频帧的播放时间 = 一个AAC帧对应的采样样本的个数 / 采样频率(单位为s)。

采样率(samplerate)为 44100Hz，表示每秒 44100个采样点,

所以，根据公式,

音频帧的播放时长 = 一个AAC帧对应的采样点个数 / 采样频率

则，当前一帧的播放时间 = 1024 * 1000000/44100= 23.22ms(单位为ms)

48kHz采样率，

则，当前一帧的播放时间 = 1024 * 1000000/48000= 21.32ms(单位为ms)

22.05kHz采样率，

则，当前一帧的播放时间 = 1024 * 1000000/22050= 46.44ms(单位为ms)

2.MP3

mp3 每帧均为1152个字节，

则：

每帧播放时长 = 1152 * 1000000 / sample_rate

例如：sample_rate = 44100HZ时，

计算出的时长为26.122ms，

这就是经常听到的mp3每帧播放时间固定为26ms的由来。

ffmpeg音频转码：

由于不同格式音频帧数的不同，在使用ffmpeg作音频转码时需要作音频fifo来缓存解码数据，依据编码音频帧需要给对应的大小。

音频fifo可使用ffmpeg中已写好的fifo，定义在libavutil/audio_fifo.h下。

AVAudioFifo，SwrContext定义及初始化：

    AVAudioFifo *af = NULL;
    SwrContext *resample_context = NULL;
    long long pts = 0;
    for(int i=0; i<1; i++){
        printf(" samplerate input = %d , samplerate output = %d\n",pAudioCodecCtx[i]->sample_rate, AudioEncodeCtx[i]->sample_rate);
        resample_context = swr_alloc_set_opts(NULL, av_get_default_channel_layout(AudioEncodeCtx[i]->channels),
                                                          AudioEncodeCtx[i]->sample_fmt,
                                                          AudioEncodeCtx[i]->sample_rate,
                                                          av_get_default_channel_layout(pAudioCodecCtx[i]->channels),
                                                          pAudioCodecCtx[i]->sample_fmt,
                                                          pAudioCodecCtx[i]->sample_rate,
                                                          0, NULL);
        swr_init(resample_context);
    }
    af = av_audio_fifo_alloc(AudioEncodeCtx[0]->sample_fmt, AudioEncodeCtx[0]->channels, 1);
    if(af == NULL)
    {
        printf("error af \n");
        return -1;
    }

转码过程：

if (avcodec_decode_audio4(pAudioCodecCtx[i], pAudioframe[i], &frame_size, &pkt) >= 0) {
                        if (i == 0){
                            uint8_t *converted_input_samples = NULL;
                            converted_input_samples = (uint8_t *)calloc(AudioEncodeCtx[i]->channels, sizeof(*converted_input_samples));
                            av_samples_alloc(&converted_input_samples, NULL, AudioEncodeCtx[i]->channels, pAudioframe[i]->nb_samples, AudioEncodeCtx[i]->sample_fmt, 0);
                            int error = 0;
                            if((error = swr_convert(resample_context, &converted_input_samples, pAudioframe[i]->nb_samples,
                                                   (const uint8_t**)pAudioframe[i]->extended_data, pAudioframe[i]->nb_samples))<0){
                                printf("error  : %d\n",error);
                            }
                            av_audio_fifo_write(af, (void **)&converted_input_samples, pAudioframe[i]->nb_samples);

                            int got_frame=0;
                            //Encode
                            while(av_audio_fifo_size(af) >= AudioEncodeCtx[i]->frame_size){
                                int frame_size = FFMIN(av_audio_fifo_size(af),AudioEncodeCtx[i]->frame_size);
                                pOutAudioframe[i]->nb_samples =  frame_size;
                                pOutAudioframe[i]->channel_layout = AudioEncodeCtx[i]->channel_layout;
                                pOutAudioframe[i]->sample_rate = AudioEncodeCtx[i]->sample_rate;
                                pOutAudioframe[i]->format = AudioEncodeCtx[i]->sample_fmt;

                                av_frame_get_buffer(pOutAudioframe[i], 0);
                                av_audio_fifo_read(af, (void **)&pOutAudioframe[i]->data, frame_size);

                                pOutAudioframe[i]->pts=pts;
                                pts += pOutAudioframe[i]->nb_samples;

                                audio_pkt.data = NULL;
                                audio_pkt.size = 0;
                                av_init_packet(&audio_pkt);
                                avcodec_encode_audio2(AudioEncodeCtx[i], &audio_pkt, pOutAudioframe[i], &got_frame);
                            }
                        }
                        break;
                    }

楠倏之语

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
基于ffmpeg的音频转码

首先引入音频帧的概念：正常人听觉的频率范围大约在20Hz~20kHz之间。采样频率是指将模拟声音波形进行数字化时，每秒钟抽取声波幅度样本的次数。根据奈奎斯特采样理论，为了保证声音不失真，采样频率应该在40kHz左右。常用的音频采样频率有8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等，如果采用更高的采样频率，还
复制链接

扫一扫

专栏目录