ffmpeg的对象架构简析——解复用器

最新推荐文章于 2024-09-30 14:47:55 发布

RunningZyx

最新推荐文章于 2024-09-30 14:47:55 发布

阅读量646

点赞数

分类专栏： FFmpeg

FFmpeg 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

看这篇文章你需要对ffmpeg已经有一定的使用经验，知道如何read帧，解帧，或者write等。
ffmpeg内部使用跑结构体表函数指针的方式，实现了类似C++的多态性，，我们来简析一下。

【注册表】
我们使用ffmpeg，首先要执行av_register_all，这个玩意儿把全局的解码器、编码器等结构体注册到一些全局的对象表里，以便后面跑表调用。
注册的类型有：解复用器、重复用器、解码器、编码器、包解析器、BitStreamFilter（位流处理器）。

【解封装（解复用器）】
解复用的工作主要有：
1、判断流格式是否支持（正确）。
2、提取流的头信息，比如视频的长宽、音频的声道样本数等。
3、读取压缩的数据流，用于被解码器解码。

这3个步骤，就是我们使用的抽象化的3个函数：
avformat_open_input->av_find_stream_info->av_read_frame。

我们来看一下ffmpeg中解复用器的核心结构（以FLAC音频为例）：

[cpp]view plaincopy 
   
 AVInputFormat ff_flac_demuxer = {  
     .name           = "flac",  
     .long_name      = NULL_IF_CONFIG_SMALL("raw FLAC"),  
     .read_probe     = flac_probe,  
     .read_header    = flac_read_header,  
     .read_packet    = ff_raw_read_partial_packet,  
     .flags          = AVFMT_GENERIC_INDEX,  
     .extensions     = "flac",  
     .raw_codec_id   = AV_CODEC_ID_FLAC,  
 };  

在我们执行av_register_all后，这个flac的AVInputFormat结构体指针会被注册到一个全局对象表里。
而avformat_open_input的工作很简单，其通过avio从来源读取字节流头，然后跑这个全局对象表，一个个去执行read_probe函数，如果哪个read_probe认了就行了。

我们看flac的read_probe实现：

[cpp]view plaincopy 
   
 static int flac_probe(AVProbeData *p)  
 {  
     if (p->buf_size < 4 || memcmp(p->buf, "fLaC", 4))  
         return 0;  
     return AVPROBE_SCORE_EXTENSION;  
 }  

这个probe仅仅只是判断了头是不是fLaC这个字符，是就是ok了，我认了，不是，让avformat_open_input继续匹配文件扩展名（如果有的话）。
如果全部的probe函数都不认，则open失败。
如果有一个probe认了，本来按照理论上来说，read_header应该是在av_find_stream_info执行的，但是ffmpeg还是将其放在了avformat_open_input，其实效果也一样，我们来看看flac的read_header：

[cpp]view plaincopy 
   
 static int flac_read_header(AVFormatContext *s)  
 {  
     int ret, metadata_last=0, metadata_type, metadata_size, found_streaminfo=0;  
     uint8_t header[4];  
     uint8_t *buffer=NULL;  
     AVStream *st = avformat_new_stream(s, NULL);  
     if (!st)  
         return AVERROR(ENOMEM);  
     st->codec->codec_type = AVMEDIA_TYPE_AUDIO;  
     st->codec->codec_id = AV_CODEC_ID_FLAC;  
     st->need_parsing = AVSTREAM_PARSE_FULL_RAW;  
     /* the parameters will be extracted from the compressed bitstream */  
   
     /* if fLaC marker is not found, assume there is no header */  
     if (avio_rl32(s->pb) != MKTAG('f','L','a','C')) {  
         avio_seek(s->pb, -4, SEEK_CUR);  
         return 0;  
     }  
   
     /* process metadata blocks */  
     while (!url_feof(s->pb) && !metadata_last) {  
         avio_read(s->pb, header, 4);  
         avpriv_flac_parse_block_header(header, &metadata_last, &metadata_type,  
                                    &metadata_size);  
         switch (metadata_type) {  
         /* allocate and read metadata block for supported types */  
         case FLAC_METADATA_TYPE_STREAMINFO:  
         case FLAC_METADATA_TYPE_CUESHEET:  
         case FLAC_METADATA_TYPE_PICTURE:  
         case FLAC_METADATA_TYPE_VORBIS_COMMENT:  
             buffer = av_mallocz(metadata_size + FF_INPUT_BUFFER_PADDING_SIZE);  
             if (!buffer) {  
                 return AVERROR(ENOMEM);  
             }  
             if (avio_read(s->pb, buffer, metadata_size) != metadata_size) {  
                 RETURN_ERROR(AVERROR(EIO));  
             }  
             break;  
         /* skip metadata block for unsupported types */  
         default:  
             ret = avio_skip(s->pb, metadata_size);  
             if (ret < 0)  
                 return ret;  
         }  
   
         if (metadata_type == FLAC_METADATA_TYPE_STREAMINFO) {  
             FLACStreaminfo si;  
             /* STREAMINFO can only occur once */  
             if (found_streaminfo) {  
                 RETURN_ERROR(AVERROR_INVALIDDATA);  
             }  
             if (metadata_size != FLAC_STREAMINFO_SIZE) {  
                 RETURN_ERROR(AVERROR_INVALIDDATA);  
             }  
             found_streaminfo = 1;  
             st->codec->extradata      = buffer;  
             st->codec->extradata_size = metadata_size;  
             buffer = NULL;  
   
             /* get codec params from STREAMINFO header */  
             avpriv_flac_parse_streaminfo(st->codec, &si, st->codec->extradata);  
   
             /* set time base and duration */  
             if (si.samplerate > 0) {  
                 avpriv_set_pts_info(st, 64, 1, si.samplerate);  
                 if (si.samples > 0)  
                     st->duration = si.samples;  
             }  
         } else if (metadata_type == FLAC_METADATA_TYPE_CUESHEET) {  
             uint8_t isrc[13];  
             uint64_t start;  
             const uint8_t *offset;  
             int i, chapters, track, ti;  
             if (metadata_size < 431)  
                 RETURN_ERROR(AVERROR_INVALIDDATA);  
             offset = buffer + 395;  
             chapters = bytestream_get_byte(&offset) - 1;  
             if (chapters <= 0)  
                 RETURN_ERROR(AVERROR_INVALIDDATA);  
             for (i = 0; i < chapters; i++) {  
                 if (offset + 36 - buffer > metadata_size)  
                     RETURN_ERROR(AVERROR_INVALIDDATA);  
                 start = bytestream_get_be64(&offset);  
                 track = bytestream_get_byte(&offset);  
                 bytestream_get_buffer(&offset, isrc, 12);  
                 isrc[12] = 0;  
                 offset += 14;  
                 ti = bytestream_get_byte(&offset);  
                 if (ti <= 0) RETURN_ERROR(AVERROR_INVALIDDATA);  
                 offset += ti * 12;  
                 avpriv_new_chapter(s, track, st->time_base, start, AV_NOPTS_VALUE, isrc);  
             }  
             av_freep(&buffer);  
         } else if (metadata_type == FLAC_METADATA_TYPE_PICTURE) {  
             ret = ff_flac_parse_picture(s, buffer, metadata_size);  
             av_freep(&buffer);  
             if (ret < 0) {  
                 av_log(s, AV_LOG_ERROR, "Error parsing attached picture.\n");  
                 return ret;  
             }  
         } else {  
             /* STREAMINFO must be the first block */  
             if (!found_streaminfo) {  
                 RETURN_ERROR(AVERROR_INVALIDDATA);  
             }  
             /* process supported blocks other than STREAMINFO */  
             if (metadata_type == FLAC_METADATA_TYPE_VORBIS_COMMENT) {  
                 if (ff_vorbis_comment(s, &s->metadata, buffer, metadata_size)) {  
                     av_log(s, AV_LOG_WARNING, "error parsing VorbisComment metadata\n");  
                 }  
             }  
             av_freep(&buffer);  
         }  
     }  
   
     return 0;  
   
 fail:  
     av_free(buffer);  
     return ret;  
 }  

首先，我们看到它avformat_new_stream了一个流，因为flac音频只有一个流。
然后我们可以看到，它设置了codec的type和id，就像在DShow里面我们设置MajorType和SubType一样。
我们看到下面有行代码：st->need_parsing = AVSTREAM_PARSE_FULL_RAW;
这个是指示parser（包解析器）的flag，后面说。
再来就进入遍历flac的metadata块过程。

因为我们不是分析flac格式，我这里也不会说flac的metadata块是如何如何，我们只说，当read_header后，AVFormatContext这个结构体，变成啥样了。
flac文件的流信息存储在FLAC_METADATA_TYPE_STREAMINFO块里面，我们看到，在跑FLAC_METADATA_TYPE_STREAMINFO块的时候：

[cpp]view plaincopy 
   
 if (metadata_type == FLAC_METADATA_TYPE_STREAMINFO) {  
     FLACStreaminfo si;  
     /* STREAMINFO can only occur once */  
     if (found_streaminfo) {  
         RETURN_ERROR(AVERROR_INVALIDDATA);  
     }  
     if (metadata_size != FLAC_STREAMINFO_SIZE) {  
         RETURN_ERROR(AVERROR_INVALIDDATA);  
     }  
     found_streaminfo = 1;  
     st->codec->extradata      = buffer;  
     st->codec->extradata_size = metadata_size;  
     buffer = NULL;  
   
     /* get codec params from STREAMINFO header */  
     avpriv_flac_parse_streaminfo(st->codec, &si, st->codec->extradata);  
   
     /* set time base and duration */  
     if (si.samplerate > 0) {  
         avpriv_set_pts_info(st, 64, 1, si.samplerate);  
         if (si.samples > 0)  
             st->duration = si.samples;  
     }  

首先，codec->extradata有数据了（就像H264解码器需要SPS\PPS\NAL头一样）。
然后代码里，我们可以看到，流的总长度有了，流的采样率有了，我们再看看avpriv_flac_parse_streaminfo函数：

[cpp]view plaincopy 
   
 void avpriv_flac_parse_streaminfo(AVCodecContext *avctx, struct FLACStreaminfo *s,  
                               const uint8_t *buffer)  
 {  
     GetBitContext gb;  
     init_get_bits(&gb, buffer, FLAC_STREAMINFO_SIZE*8);  
   
     skip_bits(&gb, 16); /* skip min blocksize */  
     s->max_blocksize = get_bits(&gb, 16);  
     if (s->max_blocksize < FLAC_MIN_BLOCKSIZE) {  
         av_log(avctx, AV_LOG_WARNING, "invalid max blocksize: %d\n",  
                s->max_blocksize);  
         s->max_blocksize = 16;  
     }  
   
     skip_bits(&gb, 24); /* skip min frame size */  
     s->max_framesize = get_bits_long(&gb, 24);  
   
     s->samplerate = get_bits_long(&gb, 20);  
     s->channels = get_bits(&gb, 3) + 1;  
     s->bps = get_bits(&gb, 5) + 1;  
   
     avctx->channels = s->channels;  
     avctx->sample_rate = s->samplerate;  
     avctx->bits_per_raw_sample = s->bps;  
     ff_flac_set_channel_layout(avctx);  
   
     s->samples = get_bits64(&gb, 36);  
   
     skip_bits_long(&gb, 64); /* md5 sum */  
     skip_bits_long(&gb, 64); /* md5 sum */  
 }  

可以看到，解码一个音频需要的东西都有了，声道、采样率、速率、声道布局、样本总数都已经保存起来了。
而这些信息全部设置在AVCodecContext里，由此，我们可以得出结论，read_header就是一个提取解码器需要的私有信息的函数。

read_header完成，基本上avformat_open_input就要返回了，此时AVCodecContext虽然有一些信息了，但是AVFormatContext还是挺空虚的（此时它已经有流的总数），我们需要填充它，就应该到调用av_find_stream_info的时候了。

av_find_stream_info主要做的工作有几个：
1、填充AVFormatContext信息，比如总长度，timebase、pts、dts和一些内部信息。
2、初始化解码器需要的一些信息。
3、如果需要，则初始化包解析器（parser）。
4、如果需要，尝试解码一些数据，来获取媒体信息。

这里我们忽略前面二点，因为他们跟解封装的关系不大，而第三点，则是跟解封装有莫大关联的。

我们先假设，我们av_find_stream_info成功了。此时我们可以av_read_frame了。
我们知道，av_read_frame读出来的AVFrame，如果是视频，则是视频的一帧(IPB中)，如果是音频，则是几帧。
但是av_read_frame不会有断帧的情况，就是不会有0.5帧这种情况，这个到底是如何做的呢，我们来看。

首先我们回到上面的：

[cpp]view plaincopy 
   
 AVInputFormat ff_flac_demuxer = {  
     .name           = "flac",  
     .long_name      = NULL_IF_CONFIG_SMALL("raw FLAC"),  
     .read_probe     = flac_probe,  
     .read_header    = flac_read_header,  
     .read_packet    = ff_raw_read_partial_packet,  
     .flags          = AVFMT_GENERIC_INDEX,  
     .extensions     = "flac",  
     .raw_codec_id   = AV_CODEC_ID_FLAC,  
 };  

我们看了read_probe用于判断，read_header用于解析头，那还有一个关键的东西没看，就是那个read_packet。
我们可以看到，flac这里的read_packet指向了一个公用函数ff_raw_read_partial_packet，我们来看看这个函数：

[cpp]view plaincopy 
   
 #define RAW_PACKET_SIZE 1024  
   
 int ff_raw_read_partial_packet(AVFormatContext *s, AVPacket *pkt)  
 {  
     int ret, size;  
   
     size = RAW_PACKET_SIZE;  
   
     if (av_new_packet(pkt, size) < 0)  
         return AVERROR(ENOMEM);  
   
     pkt->pos= avio_tell(s->pb);  
     pkt->stream_index = 0;  
     ret = ffio_read_partial(s->pb, pkt->data, size);  
     if (ret < 0) {  
         av_free_packet(pkt);  
         return ret;  
     }  
     av_shrink_packet(pkt, ret);  
     return ret;  
 }  

这个函数那真是十分简单，其注意做的工作就是：
1、新建一个1024字节的AVPacket。
2、从IO读1024字节的数据（如果当前指针到文件尾没有1024字节，即读差值）。
3、把实际读取到的数据写回包size（av_shrink_packet）。

我们可以看到，这玩意儿每次就读个1024字节，可就算是音频文件，也不可能说所有帧在文件里面的偏移都对齐到1024个字节，也不可能说一个帧大小必定是1024字节，而且对视频文件，读到的1024字节的数据还会穿插着视频\音频帧，所以这个AVPacket肯定不会是我们调用av_read_frame出来的那么漂亮的AVPakcet，必然是经过“修整”的，那这个修整模块在哪里呢？即为parser。

我们来看flac的parser结构：

[cpp]view plaincopy 
   
 AVCodecParser ff_flac_parser = {  
     .codec_ids      = { AV_CODEC_ID_FLAC },  
     .priv_data_size = sizeof(FLACParseContext),  
     .parser_init    = flac_parse_init,  
     .parser_parse   = flac_parse,  
     .parser_close   = flac_parse_close,  
 };  

我们可以看到，demuxer和parser都关联了同一个codec的id，即AV_CODEC_ID_FLAC，表明他们是连接在一起的。
parser结构由av_find_stream_info初始化，av_find_stream_info会执行av_parser_init通过codec_id给一个个流初始化parser。
av_parser_init的查找方式也是跟查找demuxer一样，parser已经注册在了全局的表里面，跑表匹配即可。

关于包解析器，下次细说。