两个视频之间的相似性刻画:(采用visil论文中的思路)https://openaccess.thecvf.com/content_ICCV_2019/papers/Kordopatis-Zilos_ViSiL_Fine-Grained_Spatio-Temporal_Video_Similarity_Learning_ICCV_2019_paper.pdf
采用神经网络进行高级特征的提取并比较区域级相似性->帧级相似性->视频级相似性
结果:
我感觉因为采取了**高级特征(CNN)**提取而非像素级别的,