干货分享 | TOP4团队参赛经验：善于复盘并构建验证思路

爱奇艺技术产品团队

于 2020-03-20 19:00:00 发布

阅读量739

点赞数

本文链接：https://blog.csdn.net/weixin_38753262/article/details/105002624

版权

前言

视频版权检测是视频检索和视频版权的关键算法，也是较为前沿的研究方向。视频版权检测算法是结合了图像检索、图像校验和视频信息的综合任务，有较强的应用难度。随着移动互联网的发展和智能手机的普及，大量针对版权长视频的侵权行为前的侵权行为出现多样化及规模化特点，侵权视频多经过复合变换，要求算法模型中图像特征具有一定鲁棒性，并且有较快执行速度和并发能力。

本文为“葫芦兄弟”团队在参加CCF BDCI-视频版权检测算法比赛中的结题思路。

赛题解读

· 现有方法

现有的方法大部分是以完善视频重复问题为研究目标，即单独以视频检索任务出发来解决现有问题。

现有数据集

1 赛题解读

本次竞赛将考察经过复合变换后的短视频关联到对应长视频的算法效果，其中不仅要找到短视频的原始长视频，还要计算出对应的时间段。过程中可能包括视频解码抽帧、视频或图像特征及指纹、视频相似检索等相关算法及技术方案。除了考察视频特征的鲁棒性外，也需要算法模型有一定的实时及并发能力。

可使用的数据分为两部分：版权长视频和侵权短视频。版权长视频由爱奇艺自制视频组成，版权归爱奇艺所有，侵权短视频由版权长视频经过变换制作生成。

假设版权长视频集合A，经过截取生成视频片段集合B，将B经过变换，得到视频片段集合B‘，将视频片段集合B‘合成到短视频集合C中，得到侵权短视频数据集合D，其中C和A不相交（A∩C =Ø）。

2 赛题评测

本模型依据提交的结果文件，采用F1-score进行评价。执行时间及特征索引大小将在复赛进行考察，初赛不进行相应限制和评分。

（1）针对每个待检测侵权视频，如果正确匹配侵权长视频ID，并且起止时间段匹配误差在5秒以内，认定为预测结果正确，用TP表示；错误匹配长视频ID或者起止时间段误差超过5秒，认定为预测结果错误，用FP表示；未进行预测数据及预测错误数据，用FN表示。

（2）通过第一步的统计值计算precision和recall，计算公式如下：

（3）通过第二步计算结果计算每个类别下的F1-score，计算方式如下：

3 赛题解题思路（方案分享）

根据赛题任务要求，赛题具体任务为根据query视频找到对应的refer视频，并且找到query视频中qstart与qend时间与对应refer视频中的rstart与rend时间。因此赛题任务具体可以分为两个子任务：

（1）视频对应：根据query视频找到对应的refer视频；

（2）视频时间轴对应：找到query视频中qstart与qend时间与对应refer视频中的rstart与rend时间；

根据问题子任务的对应关系，问题整体的解决思路如下：

具体来说就是将视频检索问题转换为图像检索问题，进而具体的完成query视频与refer视频的匹配和时间对应关系。

3.1 视频抽帧

首先，要对query视频与refer视频进行抽帧操作，即将视频抽取成不定数量的图片帧。这个步骤就会遇到一个选择，到底如何抽帧。

视频抽帧有如下方法：

（1）视频关键帧（IPB帧）；

（2）视频场景转换帧（根据前帧与后帧变化程度计算）；

（3）视频均匀抽帧（每秒1帧或者每秒10帧）；

由于query视频与refer视频的对应任务是一个典型的视频检索任务，此步骤抽取的帧应该是有代表信息的帧，因此选择视频关键帧比较合适。

在视频关键帧中I帧具有完整的信息，而且每个视频的I帧数量最小，比如一个长度60s的视频有16个I帧、84个P帧和184个B帧。

3.2 图片特征提取

在提取完视频关键帧后，需要对关键帧进行图像相似度计算操作。具体来说，需要计算关键帧图像的特征和计算图像相似度等操作。

图像特征可分为两类：全局特征与局部特征，全局图像特征将图像抽取得到一个全局整体的特征，比如颜色直方图特征统计图像的颜色空间、图像hash特征提取图像的全局指纹、图像卷积特征提取图像在CNN网络的计算权重；局部图像特征提取图像的关键点特征，比如图像角点就是比较的典型的关键点。

3.3 任务query视频与refer视频的对应

在现有的图像检索技术中CNN特征是非常有效的特征，其利用GPU加速可使提取速度增快，且对图像的内容语义进行编码，是非常适合用于图像检索的特征。在query视频与refer视频的对应任务中就是利用视频关键帧的CNN特征完成检索过程，具体过程步骤如下：

（1）对query视频关键帧提取ResNet18网络的卷积特征，并进行L2正则化；对refer视频关键帧提取ResNet18网络的卷积特征，并进行L2正则化；

（2.1 最初版）对于每一个query视频关键帧，利用其CNN特征在refer视频关键帧中搜索得到最相似的refer视频关键帧，且关键帧之间的相似度大于阈值；

（2.2 改进版）对于每一个query视频关键帧，利用其CNN特征在refer视频关键帧中搜索得到最相似Top100的refer视频关键帧，且关键帧之间的相似度小于阈值。进而将query视频关键帧与refer视频关键帧进行ORB关键点匹配进行二次筛选；

（3）对于同一个query视频，将该视频的关键帧搜索得到的refer视频关键帧进行筛选，利用refer视频次数以及关键帧相似度两个角度筛选得到；

利用上述步骤，就可以完成找到query视频与refer视频的对应关系。在具体实践步骤中使用了HNSW库来完成CNN特征的近似搜索，最终在训练集上query视频与refer视频的对应准确率为2650/3000。

3.4 任务query视频与refer视频的时间对应

在上述步骤中完成了query视频与refer视频的对应关系，且找到了一些关键帧对应关系。这里假设query视频的qn-1关键帧和qn关键帧分别与refer视频的rm-1关键帧与rm关键帧，目标找到query视频中qstart与qend时间与对应refer视频中的rstart与rend时间。

这个步骤中会包含一些先验知识：

（1）对于query视频与refer视频相同的视频范围，视频的关键帧应该是类似的，也就是视频的裁剪与拼接并不会影响关键帧的相对位置；

（2）对于query视频来说，qstart与qend时间一般都是关键帧，但rstart与rend不一定是关键帧；

（3）query视频与refer视频的速度一般为1:1或者1:1.2；

借助上述先验知识进一步可以推断出如下的结论，假设qn-1关键帧与rm-1关键帧匹配，则可以根据qn-2关键帧计算得到在refer视频中其对应的帧：

· 如果视频速度比为1，则qn-2帧在refer视频中对应帧为;

根据上述逻辑即可计算得到query视频与refer视频潜在匹配的位置，进一步可以将其匹配帧进行一一比对（从query视频的两端向中间或从rm向两端）计算得到qstart、qend、rstart和rend。

3.5 实验精度

经验分享

此次比赛的数据量非常大，对处理数据和验证想法的周期都比较长。所以，在比赛初期，“葫芦兄弟”团队花费了很多时间在数据处理和构建稳定的线下验证思考中。对他们来讲，这次比赛最重要的部分就是构建线下稳定的思路验证流程。

“葫芦兄弟”团队的将赛题任务视为一个相同视频检测（Near-DuplicateVideo Detection）的问题，这个问题在学术界已经有了非常清晰的定义。在参赛过程中“葫芦兄弟”团队全面复盘了现有学术方法、学术论文和相关数据集，发现现在的方法并不能很好解决现有的比赛的任务，不能对侵权视频的时间轴进行准确定位。因此他们设计了一种可以快速定位侵权视频片段的方法，这一方法思路简单且能够高效的解决比赛问题。

团队参赛感言

首先，参加比赛会增加我们对视频版权任务的认识，会帮助我们用实际的场景来加深我们对这个任务的了解。同时，比赛给定的数据比较特殊，也更加符合实际。在比赛中我们收获了知识和朋友，还将比赛的想法继续延伸到我们队员的工作中进行落地。所以这次比赛还是非常有价值的，在参赛的过程中还认识了很多的同行和朋友，也有多次有价值的沟通交流。总而言之这次参赛加深了我们对专业的认知，同时也帮助我们扩宽了人脉。2020年，如果有时间和精力我们应该会继续参加比赛，希望未来比赛会继续保持学术和工业结合的思路，继续朝着这个方向发展。

团队简介

“葫芦兄弟”队伍成员来自全国各地，因共同的兴趣爱好来到了同一只队伍。队伍中不仅有工业界的老司机，还有学校中的小鲜肉。团队中所有的成员对人工智能都有一定的技术积累，对自然语言处理和计算机视觉应用都有自己的见解和经验。

团队成员介绍如下：

刘羽中：队长，京东零售-技术数据中台，智能存储部算法工程师。对图像检索、图像信息挖掘和图像语义挖掘领域都有较深的经验积累，曾经多次获得国内外的竞赛奖项。

陈建秋：队员，新南威尔士大学人工智能专业研究生

史佳：队员，美国加州大学数据科学专业研究生

杨晔：队员，墨尔本大学数据科学专业研究生

缪世磊：队员，京东零售-技术与数据中台，算法工程师

参考

[1].Jiang Q Y, He Y, Li G, et al. SVD: ALarge-Scale Short Video Dataset for Near-Duplicate Video Retrieval[C].Proceedings of the IEEE International Conference on Computer Vision. 2019:5281-5289.

[2].Yang Cai, Linjun Yang, Wei Ping, Fei Wang,Tao Mei, XianSheng Hua, and Shipeng Li. Million-scale near-duplicate videoretrieval system. In MM, pages 837–838, 2011.

[3].Chien-Li Chou, Hua-Tsung Chen, and Suh-YinLee. Patternbased near-duplicate video retrieval and localization on webscalevideos. TMM, 17(3):382–395, 2015

[4].Mayur Datar, Nicole Immorlica, Piotr Indyk,and Vahab S. Mirrokni. Locality-sensitive hashing scheme based on pstable distributions.In SCG, pages 253–262, 2004.

[5].Yanbin Hao, Tingting Mu, Richang Hong, MengWang, Ning An, and John Yannis Goulermas. Stochastic multiview hashing forlarge-scale near-duplicate video retrieval. TMM, 19(1):1–14, 2017

[6].Yu-Gang Jiang, Yudong Jiang, and Jiajun Wang.VCDB: A large-scale database for partial copy detection in videos. In ECCV,pages 357–371, 2014

[7].Giorgos Kordopatis-Zilos, SymeonPapadopoulos, Ioannis Patras, and Yiannis Kompatsiaris. Near-duplicate videoretrieval by aggregating intermediate CNN layers. In MM, pages 251–263, 2017.

[8].Fumin Shen, Chunhua Shen, Qinfeng Shi, Antonvan den Hengel, Zhenmin Tang, and Heng Tao Shen. Hashing on nonlinearmanifolds. TIP, 24(6):1839–1851, 2015.

[9].Jingkuan Song, Yi Yang, Zi Huang, Heng TaoShen, and Richang Hong. Multiple feature hashing for real-time large scalenear-duplicate video retrieval. In MM, pages 423–432, 2011.

[10].Xiao Wu, Alexander G. Hauptmann, and Chong-WahNgo. Practical elimination of near-duplicates from web video search. In MM,pages 218–227, 2007.

[11].Chuan Xiao, Wei Wang, Xuemin Lin, Jeffrey XuYu, and Guoren Wang. Efficient similarity joins for near-duplicate detection.TODS, 36(3):15:1–15:41, 2011.

[12].Dell Zhang, Jun Wang, Deng Cai, and Jinsong Lu.Selftaught hashing for fast similarity search. In SIGIR, pages 18–25, 2010.

[13].Wengang Zhou, Houqiang Li, Richang Hong, YijuanLu, and Qi Tian. BSIFT: toward data-independent codebook for large scale imagesearch. TIP, 24(3):967–979, 2015.