“做衣服不买布”,有专家这样形容短视频的侵权行为。
截至2021年12月底,中国短视频用户规模达到9.34亿。但面对海量的视频内容,“如何监测”也是一个老大难的问题。
网络短视频内容审核标准细则(2021)
蚂蚁的技术同学也在想办法。
最近,蚂蚁集团向全球开发者开源了一个用于视频侵权检测的AI数据集——VCSL(Video Copy Segment Localization)。
这是目前为止最大的视频侵权AI数据集,这一成果被计算机视觉A类顶级会议CVPR 2022收录。
01 数据集“超大杯”
那么,什么是数据集呢?
近年来,人工智能快速发展,相关的框架、算法等层出不穷,要检验一个算法的好坏,就需要用有关的数据集进行实验。
老话说,“是骡子是马,拉出来遛遛!”——就是这个意思。
从下图中可以看出,VCSL覆盖大量真实视频领域与视频时长,包括了超过16万对侵权视频对,28万