1 词袋模型
李菲菲认为图像可以类比文档,图像的子块或特征点可以看作是单词,则可以统计图像中所有特征的直方图表示图像,即得到图像的BoW(bag of words)模型。图1是BoW模型的示例图,对于已经获得的视觉码本,统计新的图像在各个子块上的直方图,例如人像中直方图最大的是人眼和皮肤,自行车中直方图突出的是车座。通过直方图的映射,可以简单有效的获得图像的特征描述。
bow模型的构建主要包括:特征提取、生成码本、统计直方图三个步骤,算法流程如图2所示。
(1)特征提取:对训练集中的每一张图片提取特征,常见如SIFT特征,获得M张图片共计N个特征向量。
(2)生成码本:对训练集中获得的特征进行聚类,如使用K-means算法将训练特征集合聚成K个簇,每一个簇代表一类相似的特征(即一个视觉单词),构造K个视觉词典的码本。对于字典的详细描述,可见我的另一篇博客:稀疏编码及字典学习。