关于海量视频相似视频检索
当前移动互联网时代下,海量视频信息早已成为常态,对于用户而言,更多的感受可能是方便,信息量大,更多的是习惯了阅读视频内容而不必管其他的技术问题。但对于视频运营平台,则肩负着审查审核,查重去重,违禁鉴黄等等重要的责任,这些业务虽然如此众多,但究其根源,核心技术其实都是在围绕着“相似视频检索”这个技术领域。
如今AI技术大行其道,可能已经有了一些模型可以作为基础,我没有去调研过,本帖所描述的是非AI方向算法和工程实施架构方法,并对检索引擎做了开源。
总结起来,可以从以下几个方面来考虑海量视频检索问题:
- 对占用空间较大的视频(M/G级别)内容做信息抽象,变为占用空间较小的特征信息(B/K 级别)
- 将特征信息加入到特征库中进行检索
- 特征库要能物理水平扩展,理论上无上限(一般视频在几亿条以上)
- 要能实时检索特征信息,或按照业务需求在规定时间能完成检索
- 要能识别出相似的视频内容并返回
虽然需求比较简单直接,但对于海量视频来讲,还是极具挑战性的,挑战主要来自两个方面,一是准确性,二是检索速率,对于那些对实时性和视频内容反馈都比较高的业务(例如违禁审查),更加剧了挑战的难度。
以下连接,我开源了相似视频的检索引擎(github sivios——Similar Videos Search),它在检索速率上有比较好的表现,希望能给你带来一些启发。