暂时想到一个简单暴力的方法:
1) 提取待检索电影的每一帧图像的局部敏感哈希 (Locality Sensitive Hashing; LSH) 特征, 并保存下来, 不妨称为库 (gallery). LSH 特征可以用整型来表示, 一般是64位的. 两张图像的 LSH 特征的 Hamming 距离, 可以表征图像之间的差异. 而 Hamming 距离在编程语言中可以很高效的实现 (只需计算两个整型的异或运算的popcnt). 常见的图像 LSH 特征有 pHash, aHash, dHash 等.
2) 来了一张查询图像 (query), 也计算它的 LSH 特征. 然后与预先保存下来的库中的每个 LSH 特征都计算 Hamming 距离, 返回库中与查询图像 LSH 特征距离最小 (或距离小于指定阈值) 的一个或多个 LSH 特征, 它们的标签 (即属于哪部电影) 我们也是知道的, 然后统计每个电影标签出现的频次, 哪部电影的标签出现的最多即认为查询图像来自于哪部电影 (即最近邻分类器 KNN 的思想).
综上, 要完成的你的需求, 可能需要深入了解一下: 图像检索, 视频检索, 局部敏感哈希, (近似)最近邻搜索等.