大华摄像头解码 ffmpeg_刻意练习FFmpeg系列：通过思维导图快速了解FFmpeg源码整体结构体...

最新推荐文章于 2024-07-31 18:09:03 发布

weixin_39790686

最新推荐文章于 2024-07-31 18:09:03 发布

阅读量491

点赞数 1

文章标签：大华摄像头解码 ffmpeg 结构体可以整体交换吗

前言

本文将整体性地介绍FFmpeg的代码结构。如果你还不是非常清楚理解音视频的「格式Format」和「编码Codec」，可以看一下之前的文章。

kamuel：刻意练习FFmpeg系列：音视频基础概念格式和编码zhuanlan.zhihu.com

心智模型：C语言的类

如果你看过FFmpeg的代码，就很容易发现，FFmpeg里有各式各样的结构体，有一类结构体的命名规则比较类似，都是XxxxContext。

XXXContext

其实这是FFmpeg在运用面向对象的思想来编程。XxxxContext可以看做是C语言“类”的实现。

C语言没有类的语法特征，但可以用结构体struct来描述一组元素的集合。如果把XxxxContext看做类，成员变量显然可以用结构体struct来模拟。

但成员函数呢？如果你学习过Python的类，就知道成员函数里，第一个参数self是指代本对象本身。其实C++的内部实现也是，成员函数的第一个参数，隐式地传递着this指针。所以用C语言来描述对象，只需要显式地在函数的第一个参数传递XxxxContext结构体的指针就可以了。

C语言的类 vs C++语言的类

FFmpeg的模块布局

打开FFmpeg源码，会发现有一系列libavxxx的模块，这些模块很好地划分了代码的结构和分工。

libavformat，format，格式封装
libavcodec，codec，编码、解码
libavutil，util，通用音视频工具，像素、IO、时间等工具
libavfilter，filter，过滤器，可以用作音视频特效处理
libavdevice，device，设备（摄像头、拾音器）
libswscale，scale，视频图像缩放，像素格式互换
libavresample，resample，重采样
libswresample，也是重采样，类似图像缩放
libpostproc，后处理，？？

对于入门来说，最重要的是前面三个，也就是format、codec、util，其他的可以慢慢熟悉。

下面重点画出format、codec、util三大核心模块的功能。

FFmpeg的核心模块

libavformat 格式处理常见“类”

AVFormatContext，打开文件总需要它

之前介绍过，「格式Format」是音视频的一个核心概念，所以在FFmpeg里你需要经常与AVFormatContext打交道。因为一般不是直接操作「解封装器Demuxer」和「封装器Muxer」，而是通过AVFormatContext来操作它们。

常用的 AVFormatContext 的操作，可以分为3类：

通用的函数，例如创建和销毁，等价于C++的构造函数和析构函数。
对输入视频流的读操作，用于输入处理，也就是使用「解封装器Demuxer」对视频流进行操作，是读操作。
对输出视频流的写操作，用于输出处理，也就是使用「封装器Muxer」对视频流进行操作，是写操作。

为了方便查看，总结为一个思维导图

AVFormatContext

对于AVFormatContext的使用，主要就是读视频和写视频，下面是流程图。

用AVFormatContext读视频

用AVFormatContext写视频

AVInputFormat，传说中的「解封装器Demuxer」

「解封装器Demuxer」，正式的结构体是AVInputFormat，其实是一个接口，功能是对封装后的格式容器解开获得编码后的音视频的工具。简单说，就是拆包工具。

我们所知道的各种多媒体格式，例如MP4、MP3、FLV等格式的读取，都有AVInputFormat的具体实现。

下面是mp4视频格式的解封装器ff_mov_demuxer。

你可以看到AVInputFormat提供的是类似接口一样的功能，而ff_mov_demuxer是其的一个具体实现。FFmpeg其实本身的逻辑并不复杂，只是由于支持的格式特别丰富，所以代码才如此多。如果我们先把大部分格式忽略掉，重点关注FFmpeg对其中几个格式的实现，可以更好理解FFmpeg。

AVInputFormat ff_mov_demuxer = {
    .name           = "mov,mp4,m4a,3gp,3g2,mj2",
    .long_name      = NULL_IF_CONFIG_SMALL("QuickTime / MOV"),
    .priv_class     = &mov_class,
    .priv_data_size = sizeof(MOVContext),
    .extensions     = "mov,mp4,m4a,3gp,3g2,mj2",
    .read_probe     = mov_probe,         // 这是一个函数
    .read_header    = mov_read_header,   // 这是一个函数
    .read_packet    = mov_read_packet,   // 这是一个函数
    .read_close     = mov_read_close,    // 这是一个函数
    .read_seek      = mov_read_seek,     // 这是一个函数
    .flags          = AVFMT_NO_BYTE_SEEK | AVFMT_SEEK_TO_PTS,
};

下面是「解封装器 Demuxer」的思维导图。

解封装器 Demuxer

AVOutputFormat，传说中的「封装器Muxer」

「封装器 Muxer」，对应的结构体是AVOutputFormat，也是一个接口，功能是对编码后的音视频封装进格式容器的工具。简单说，就是打包工具。

跟「解封装器 Demuxer」类似，也是MP4、MP3、FLV等格式的实现，差别是「封装器 Muxer」用于输出。

同样通过一个例子来理解，这是MP3的「封装器 Muxer」，libavformat/mp3enc.c。

AVOutputFormat ff_mp3_muxer = {
    .name              = "mp3",
    .long_name         = NULL_IF_CONFIG_SMALL("MP3 (MPEG audio layer 3)"),
    .mime_type         = "audio/mpeg",
    .extensions        = "mp3",
    .priv_data_size    = sizeof(MP3Context),
    .audio_codec       = AV_CODEC_ID_MP3,
    .video_codec       = AV_CODEC_ID_PNG,
    .write_header      = mp3_write_header,
    .write_packet      = mp3_write_packet,
    .write_trailer     = mp3_write_trailer,
    .query_codec       = query_codec,
    .flags             = AVFMT_NOTIMESTAMPS,
    .priv_class        = &mp3_muxer_class,
};

下面是「封装器 Muxer」的思维导图。

用AVFormatContext读视频

libavcodec 编码解码处理常见“类”

操作编解码器的 AVCodecContext

跟AVFormatContext类似，我们也是通过AVCodecContext对「编码器Encoder」和「解码器Decoder」操作，一般也不直接操作编解码器。所以需要实现编解码，一般都要跟AVCodecContext打交道。思维导图如下：

AVCodecContext

「编码器Encoder」和「解码器Decoder」的公共接口AVCodec

跟格式对应有「解封装器 Demuxer」和「封装器 Muxer」一样，编解码有「编码器Encoder」和「解码器Decoder」。不过差异在于，「编码器Encoder」和「解码器Decoder」使用相同的公共接口AVCodec，因为编解码的过程有较多相似的地方。

为了方便理解，同样先举一个具体的例子，下面是利用libopenh264库实现的编码器例子ff_libopenh264_encoder。

AVCodec ff_libopenh264_encoder = {
    .name           = "libopenh264",
    .long_name      = NULL_IF_CONFIG_SMALL("OpenH264 H.264 / AVC / MPEG-4 AVC / MPEG-4 part 10"),
    .type           = AVMEDIA_TYPE_VIDEO,
    .id             = AV_CODEC_ID_H264,
    .priv_data_size = sizeof(SVCContext),
    .init           = svc_encode_init,
    .encode2        = svc_encode_frame, // 编码
    .close          = svc_encode_close,
    .capabilities   = AV_CODEC_CAP_AUTO_THREADS,
    .caps_internal  = FF_CODEC_CAP_INIT_THREADSAFE | FF_CODEC_CAP_INIT_CLEANUP,
    .pix_fmts       = (const enum AVPixelFormat[]){ AV_PIX_FMT_YUV420P,
                                                    AV_PIX_FMT_NONE },
    .priv_class     = &class,
    .wrapper_name   = "libopenh264",
};

而h264的一个解码器具体实现是 ff_libopenh264_decoder。可以看到，差异是编码器实现encode2()函数，解码器实现decode()函数。

AVCodec ff_libopenh264_decoder = {
    .name           = "libopenh264",
    .long_name      = NULL_IF_CONFIG_SMALL("OpenH264 H.264 / AVC / MPEG-4 AVC / MPEG-4 part 10"),
    .type           = AVMEDIA_TYPE_VIDEO,
    .id             = AV_CODEC_ID_H264,
    .priv_data_size = sizeof(SVCContext),
    .init           = svc_decode_init,
    .decode         = svc_decode_frame, // 解码
    .close          = svc_decode_close,
    .capabilities   = AV_CODEC_CAP_DELAY | AV_CODEC_CAP_DR1,
    .caps_internal  = FF_CODEC_CAP_SETS_PKT_DTS | FF_CODEC_CAP_INIT_THREADSAFE |
                      FF_CODEC_CAP_INIT_CLEANUP,
    .bsfs           = "h264_mp4toannexb",
    .wrapper_name   = "libopenh264",
};

「编解码器公共接口 AVCodec」的思维导图。

编解码器公共接口 AVCodec

「解析器 Parser」，将输入流转换为帧的数据包

由于解码器的输入是一个完整的帧数据包，而无论是网络传输还是文件读取，一般都是固定的buffer来读取的，而不是安装格式的帧大小来读取，所以我们需要解析器Parser将流整理成一个一个的Frame数据包。

先看一个具体的例子ff_h264_parser，这是从格式输入流中获取h264压缩的帧数据包。

AVCodecParser ff_h264_parser = {
    .codec_ids      = { AV_CODEC_ID_H264 },
    .priv_data_size = sizeof(H264ParseContext),
    .parser_init    = init,
    .parser_parse   = h264_parse,
    .parser_close   = h264_close,
    .split          = h264_split,
};

下面是「解析器 Parser」的思维导图。