1. FFmpeg介绍与裁剪
1.1 命令行工具
FFmpeg框架中还提供了几个用于执行命令行完成音视频数据处理工具,包括ffplay、ffprobe、ffserver,具体解释如下:
-
ffplay Fast forword play,用ffmpeg实现的播放器
-
ffserver Fast forword server,用ffmpeg实现的rtsp服务器
-
ffprobe Fat forword probe,用来输入分析输入流
2. FFmpeg架构分析
在1.1小节中,我们对FFmpeg整体架构进行了简单介绍,阐述了框架中各个模块的功能。本节将在此基础上,重点阐述在利用FFmpeg进行音视频开发中牵涉到的重要步骤,数据结构体以及相关函数。
2.1 FFmpeg处理要点
总体来说,FFmpeg框架主要的作用在于对多媒体数据进行解协议、解封装、解码以及转码等操作,为了对FFmpeg在视音频中的应用有个更直观理解,下面给出解析rtsp网络流的流程图,该图演示了从打开rtsp流,到最终提取出解码数据或转码的大概过程,如下所示:
术语解释:
muxer
:视音频复用器(封装器),即将视频文件、音频文件和字幕文件(如果有的话)合并为某一个视频格式,比如讲a.avi、a.mp3、a.srt合并为mkv格式的视频文件;demuxer
:视音频分离器(解封装器),即muxer的逆过程;transcode
:转码,即将视音频数据从某一种格式转换成另一种格式;- RTP包:Real-time Transport Protocol,实时传输协议,是一种基于UDP的网络传输协议,它介于应用层和传输层之间,负责对流媒体数据进行封包并实现媒体流的实时传输;
ES流
:Elementary Streams,即原始流,也称视/音频裸流,是直接从编码器输出的数据流,可为视频数据流(如H.264、MJPEG等)或音频数据流(如AAC等);PES流
:Packetized Elementary Streams,分组ES流,PES流是ES流经过PES打包器将ES分组、打包、加入包头信息等处理后形成的数据流,是用来传递ES的一种数据结构。解协议
:取出网络数据流无关报文信息,以获取真正的视音频数据,常见的协议有rtsp、rtmp、http和mms等;解封装
:即demuxer,封装格式可以为.mp4/.avi/.flv/.mkv等;解码
:将编码数据还原成原始内容,比如将H.264解码为YUV、AAC解码为PCM等;
【腾讯文档】FFmpegWebRTCRTMPRTSPHLSRTP播放器-音视频流媒体高级开发-资料领取
https://docs.qq.com/doc/DYU5ORlBOdkpCUkNx
https://docs.qq.com/doc/DYU5ORlBOdkpCUkNx
2.1 FFmpeg重要的结构体
FFmpeg中有很多比较重要的结构体,比如与输入输出(I/O)有关的结构体AVIOContext、URLContext、URLProtocol ,与封装格式有关的结构体AVFormatContext、AVInputFormat、AVOutputFormat,与编解码有关的结构体AVCodec、AVCodecContext,以及与音视频数据有关的结构体AVStream、AVPacket、AVFrame等等。刚开始接触FFmpeg时,个人感觉一时间要理解区分这些结构体还是有点困难的,好在这些结构体当中有个“老大哥”-AVFormatContext
,AVFormatContext可以说是贯穿整个FFmpeg开发,"犹如神一般的存在"。下面我们就在分析AVFormatContext结构体的基础上,阐述上述结构体的作用与区别。
AVFormatContext
AVFormatContext结构体描述了一个多媒体文件或流的构成和基本信息,是FFmpeg中最为基本的一个结构体,也是其他所有结构的根。其中,成员变量iformat和oformat
为指向对应的demuxing(解封装)和muxing(封装)指针,变量类型分别为AVInputFormat、AVOutputFormat;pb
为指向控制底层数据读写的指针,变量类型为AVIOContext;nb_streams
表示多媒体文件或多媒体流中数据流的个数;streams
为指向所有流存储的二级指针,变量类型AVStream;video_codec和audio_codec
分别表示视频和音频编解码器,变量类型为AVCodec等等。AVFormatContext结构体(位于libavformat/avformat.h中)部分源码如下:
typedef struct AVFormatContext {
const AVClass *av_class;
// 输入容器格式
// 只在调用avformat_open_input()时被设置,且仅限Demuxing
struct AVInputFormat *iformat;
// 输出容器格式
// 只在调用avformat_alloc_output_context2()函数时被设置,且仅限封装(Muxing)
struct AVOutputFormat *oformat;
/**
* Format private data. This is an AVOptions-enabled struct
* if and only if iformat/oformat.priv_class is not NULL.
*
* - muxing: set by avformat_write_header()
* - demuxing: set by avformat_open_input()
*/
void *priv_data;
// 输/入输出(I/O)的缓存
// 说明:解封装(demuxing):值由avformat_open_input()设置
// 封装(muxing): 值由avio_open2设置,需在avformat_write_header()之前
AVIOContext *pb;
// stream info
int ctx_flags;
// AVFormatContext.streams中数据流的个数
// 说明:值由avformat_new_stream()设置
unsigned int nb_streams;
// 文件中所有流stream列表。创建一个新stream,调用avformat_new_stream()函数实现
// 当调用avformat_free_context()后,streams所占资源被释放
// 说明:解封装(demuxing):当调用avformat_open_input()时,streams值被填充
// 封装(muxing):streams在调用avformat_write_header()之前被用户创建
//
AVStream **streams;
// 输入或输出文件名,如输入:rtsp://184.72.239.149/vod/mp4:BigBuckBunny_115k.mov
// 说明:demuxing:当调用avformat_open_input()后被设置
// muxing: 当调用avformat_alloc_output_context2()后被设置,且需要调用avformat_write_header()之前
char filename[1024];
// component的第一帧位置,仅限Demuxing时由libavformat设置
int64_t s