前面一篇文章弄清楚了VPP_QSV插件的ffmpeg命令行命令,下面开始用C++代码实现VPP_QSV插件的C++代码实现。
C++使用滤镜的流程可以参考雷神的文章
基本的流程如图
网上讨论FFMPEG硬件加速滤镜编程的文章不算太多,大概是基于GPU硬件的滤镜太依赖硬件导致用的人不多,所以大多数是讨论基于软件滤镜插件的实现方法和过程。硬件滤镜的实现的方法基本类似,但是有2个地方是不一样的。
- 硬件滤镜里分配frame buffer需要在显存里分配,所以涉及到要处理AVCodecContext结构体的2个硬件相关的成员变量 hw_device_ctx和hw_frames_ctx,需要按照要求把他们传给对应的filter
- 初始化滤镜的位置必须要在ffmpeg解出第一个视频帧以后才能初始化,因为qsv解码器是在第一次调用avcodec_send_packet()后开始解码video frame时才会用callback函数的方式在里面设置有效的hw_frames_ctx,这部分代码之后才能获取正确的hw_frames_ctx并把它传给滤镜的输入端"buffer"。
所以在使用Intel QSV硬件加速滤镜的流程就变成了 (Nvidia GPU的硬件加速滤镜流程和Intel的不一样,所以本文没有参考意义), 其中红色的模块为改动部分
流程中的关键函数如下所示:
get_format() 这个是QSV硬件解码时的回调函数,在这里初始化hw_frames_ctx, 一般在开始解码流时会被调用一次
init_filter() 这个在get_format()被调用后才能正常初始话,如果按照雷神的流程在程序开始就初始化会碰到各种各样的错误,怀疑vpp_qsv的初始话需要在qsv decoder初始化之后(个人猜的,代码实在太多了,看不下去)。
av_buffersrc_parameters_set(buffersrc_ctx, ...) 需要把qsv decoder的hw_frames_ctx传给buffersrc滤镜
整个代码修改自FFMPEG官方的例程https://github.com/FFmpeg/FFmpeg/blob/master/doc/examples/qsvdec.c
代码里vpp_qsv的设置
//不管原始视频分辨率是多少,一律缩放到1024x768
const char *filter_descr = "vpp_qsv=w=1024:h=768";
代码里主循环部分
//主循环部分,从码流里读一个frame的数据,decode_packet负责解码,如果解出了图像帧则got_frame为1
/* actual decoding */
while (ret >= 0) {
ret = av_read_frame(input_ctx, &pkt);
//std::cout << "read_frame" << std::endl;
if (ret < 0)
break;
if (pkt.stream_index == video_st->index)
{
//std::cout << " -- video_frame" << std::endl;
//ret = decode_packet(&decode, decoder_ctx, frame, sw_frame, &pkt, output_ctx);
ret = decode_packet(decoder_ctx, frame, &got_frame, &pkt);
if (got_frame)
{
//第一次解出图像帧时会初始化一次滤镜
if (!filter_ctx->initiallized) {
//init buffer/buffersink and vpp filter here
ret = init_filter(filter_ctx,
filter_ctx->dec_ctx, filter_descr);
if (ret < 0)
return ret;
}
//pts is only used for encoding
frame->pts = av_frame_get_best_effort_timestamp(frame);
//直接显示decode_packet返回的frame, 这是解码器输出的nv12原始数据
//display_qsv_frame(frame, sw_frame);
ret = get_filtered_frame(frame, filt_frame);
//显示滤镜输出的filt_frame,这是硬件做缩放后的nv12数据
ret = display_qsv_frame(filt_frame, sw_frame);
frm_counter++;
av_frame_unref(frame);
av_frame_unref(filt_frame);
}
//std::cout << " -- frm_counter = " << frm_counter << std::endl;
}
else
{
std::cout << " -------- other_frame" << std::endl;
}
av_packet_unref(&pkt);
}
初始化滤镜函数
static int init_filter(FilteringContext* fctx, AVCodecContext *dec_ctx, const char *filter_spec)
{
char args[512];
int ret = 0;
AVFilter *buffersrc = NULL;
AVFilter *buffersink = NULL;
AVFilterContext *buffersrc_ctx = NULL;
AVFilterContext *buffersink_ctx = NULL;
AVFilterInOut *outputs = avfilter_inout_alloc();
AVFilterInOut *inputs = avfilter_inout_alloc();
AVFilterGraph *filter_graph = avfilter_graph_alloc();
if (!outputs || !inputs || !filter_graph) {
ret = AVERROR(ENOMEM);
goto end;
}
if (dec_ctx->codec_type == AVMEDIA_TYPE_VIDEO) {
buffersrc = (AVFilter *)avfilter_get_by_name("buffer");
buffersink = (AVFilter *)avfilter_get_by_name("buffersink");
if (!buffersrc || !buffersink) {
av_log(NULL, AV_LOG_ERROR, "filtering source or sink element not found\n");
ret = AVERROR_UNKNOWN;
goto end;
}
snprintf(args, sizeof(args),
"video_size=%dx%d:pix_fmt=%d:time_base=%d/%d:pixel_aspect=%d/%d"
":frame_rate=%d/%d",
dec_ctx->width, dec_ctx->height, AV_PIX_FMT_QSV, // dec_ctx->pix_fmt,
dec_ctx->time_base.num, dec_ctx->time_base.den,
dec_ctx->sample_aspect_ratio.num,
dec_ctx->sample_aspect_ratio.den,
dec_ctx->framerate.num, dec_ctx->framerate.den);
ret = avfilter_graph_create_filter(&buffersrc_ctx, buffersrc, "in",
args, NULL, filter_graph);
if (ret < 0) {
av_log(NULL, AV_LOG_ERROR, "Cannot create buffer source\n");
goto end;
}
//这里比初始化软件滤镜多的一步,将hw_frames_ctx传给buffersrc, 这样buffersrc就知道传给它的是硬件解码器,数据在显存内
if (dec_ctx->hw_frames_ctx) {
AVBufferSrcParameters *par = av_buffersrc_parameters_alloc();
par->hw_frames_ctx = dec_ctx->hw_frames_ctx;
ret = av_buffersrc_parameters_set(buffersrc_ctx, par);
av_freep(&par);
if (ret < 0)
goto end;
}
ret = avfilter_graph_create_filter(&buffersink_ctx, buffersink, "out",
NULL, NULL, filter_graph);
if (ret < 0) {
av_log(NULL, AV_LOG_ERROR, "Cannot create buffer sink\n");
goto end;
}
}
else {
ret = AVERROR_UNKNOWN;
goto end;
}
/* Endpoints for the filter graph. */
outputs->name = av_strdup("in");
outputs->filter_ctx = buffersrc_ctx;
outputs->pad_idx = 0;
outputs->next = NULL;
inputs->name = av_strdup("out");
inputs->filter_ctx = buffersink_ctx;
inputs->pad_idx = 0;
inputs->next = NULL;
if (!outputs->name || !inputs->name) {
ret = AVERROR(ENOMEM);
goto end;
}
if ((ret = avfilter_graph_parse_ptr(filter_graph, filter_spec,
&inputs, &outputs, NULL)) < 0)
goto end;
if ((ret = avfilter_graph_config(filter_graph, NULL)) < 0)
goto end;
/* Fill FilteringContext */
fctx->buffersrc_ctx = buffersrc_ctx;
fctx->buffersink_ctx = buffersink_ctx;
fctx->filter_graph = filter_graph;
fctx->initiallized = 1;
end:
avfilter_inout_free(&inputs);
avfilter_inout_free(&outputs);
return ret;
}
运行程序,可以看到不论视频文件分辨率是多少,显示的视频分辨率始终是1024x768, 此时可以看到GPU的占用率,说明解码和缩放都走的是Intel集成显卡硬件。对比传统的硬件解码后调用av_hwframe_transfer_data()读出原始视频数据后再用sws_scale()来做软件缩放并显示,在原始视频是高分辨率时性能提升明显,因为av_hwframe_transfer_data()读原始视频数据时占用了大量的CPU时间和资源, 而使用vpp_qsv滤镜缩放后,从GPU读出视频帧数据的分辨率始终为1024x768。 另外如果使用上篇文章里修改过的FFMPEG库,vpp_qsv还可以顺便把NV12数据转成RGB32, 这样CPU连YUV2RGB都可以省了,直接显示RGB32数据或者简单的把RGB32转成RGB24(NCHW)格式就可以丢给OpenVINO做基于CPU的推理了
最后完整项目奉上,仅供参考 https://gitee.com/tisandman/qsv_dec