(一)两帧相似度计算
词袋模型BoW(Bag-of-Words)
一、BoW实现原理:用“图像上有哪几种特征”来描述一个图像。例如,如果某个照片,我们说里面有一个人、一辆车;而另一张则有两个人、一只狗。根据这样的描述,可以度量这两个图像的相似性。具体实现步骤:
- 确定“人、车、狗”等概念——对应于 BoW 中的“单词”(Word),许多单词放在一起,组成了“字典”(Dictionary)。
- 确定一张图像中,出现了哪些在字典中定义的概念——我们用单词出现的情况(或直方图)描述整张图像。这就把一个图像转换成了一个向量的描述。
- 比较上一步中的描述的相似程度。如:先定义一个字典,字典中包含w1,w2,w3三个单词,A = 1 · w 1 + 1 · w 2 + 0 · w 3 .表示一幅图内容,用向量[1, 1, 0] T就可以表达图像A。
注:BoW只强调Words的有无,而不关心其顺序;List of Words则还关心其顺序。
二、字典的来历:
1、字典结构:字典不是从单个图像上提取出来的,而是某一类特征的组合。所以,字典生成问题类似于一个聚类(Clustering)问题,聚类问题是无监督学习中常见问题,BoW的字典生成问题属于其中一种,常利用K-means方法来实现。K-means方法简单原理:
- 当我们有 N 个数据,想要归成 k 个类;
- 随机选取 k 个中心点:c 1 , . . . , c k ;
- 对每一个样本,计算与每个中心点之间的距离,取最小的作为它的归类;
- 重新计算每个类的中心点。