深入理解DBOW3算法(一)

导语: 最近在做视觉闭环相关的研究, 希望改进其中的部分问题, 因知”纸上得来终觉浅,绝知此事要躬行”之理, 没有对代码细节的研究就谈不上真正精通词带库算法, 因而笔者最近详细阅读了dbow3开源代码,对其中的算法细节有了较好的理解,汇总成文,著录于此,与大家分享.

词袋在笔者看来其本质的意义是事先通过kmeans聚类将图像的描述子进行聚类, 通过离线的无监督学习生成了数据库,之后每来一帧新图像,就可以将该图像与数据库进行比较.这里的关键是,将之前将描述子进行brouteforce穷举搜索的高计算复杂度通过对类的比较来减少计算复杂度,由于我们事先存储了词带数据库,所以该方法本质是一种以空间换时间的算法.那么该方法是如何进行的呢?

下面笔者将通过一个demo进行说明,首先下载DBOW3官方源码:

git clone https://github.com/rmsalinas/DBow3.git
mkdir build
cd build
cmake ..
make

编译完成后,输入以下命令,即对image0/1/2进行orb特征提取,并生成描述子,将描述子进行无监督学习生成了词带库”small_db.yml.gz”

../build/utils/demo_general orb ./images/image0.png images/image1.png images/image2.png

命令执行结果:

Extracting   features...
reading image: ./images/image0.png
extracting features
[ INFO:0] Initialize OpenCL runtime...
done detecting features
reading image: images/image1.png
extracting features
done detecting features
reading image: images/image2.png
extracting features
done detecting features
Creating a small 9^3 vocabulary...
feature.size: 1493
m_node.size: 763
m_word.size: 672
... done!
Vocabulary information: 
Vocabulary: k = 9, L = 3, Weighting = tf-idf, Scoring = L1-norm, Number of words = 672

Matching images against themselves (0 low, 1 high): 
Image 0 vs Image 0: 1
Image 0 vs Image 1: 0.0484061
Image 0 vs Image 2: 0.040641
Image 1 vs Image 0: 0.0484061
Image 1 vs Image 1: 1
Image 1 vs Image 2: 0.120282
Image 2 vs Image 0: 0.040641
Image 2 vs Image 1: 0.120282
Image 2 vs Image 2: 1

Saving vocabulary...

Done

执行结果显示:

生成了9分支,深度为3的词袋树,对每个叶子节点使用TF-IDF权重,算分方式使用L1范数,叶子节点数为672,同时显示了每个word的ID

之后,对于img0/1/2,分别将图像与词袋树进行计算,生成了词袋向量,通过图像对于的词袋向量进行算分,可知,img0与自身的相似度为1,与img1相似度为0.0484061,与img2相似度为0.040641,以此类推.

上述命令的测试代码如下:

//输入参数为三张图像的描述子集合(vector,vector的每个元素为对应图像的描述子矩阵,矩阵的每一行为描述子向量256维)
void testVocCreation(const vector<cv::Mat> &features) {
    // branching factor and depth levels
    const int k = 9; //配置分支数为9
    const int L = 3; //配置深度为3
    const WeightingType weight = TF_IDF; //使用TF-IDF作为word权重
    const ScoringType score = L1_NORM; //使用L1范数计算word之间的分数差

    DBoW3::Vocabulary voc(k, L, weight, score);

    cout << "Creating a small " << k << "^" << L << " vocabulary..." << endl;
    voc.create(features); //该接口使用kmeans++生成了相应的词袋树
    cout << "... done!" << endl;

    cout << "Vocabulary information: " << endl
         << voc << endl << endl;

    // lets do something with this vocabulary
    cout << "Matching images against themselves (0 low, 1 high): " << endl;
    BowVector v1, v2; //词袋树生成之后,每进来一帧图像,都会将该图像与词袋树进行计算,生成bowvector,
                      //之后使用bowvecor来做图像相似度的计算
    for (size_t i = 0; i < features.size(); i++) {
        voc.transform(features[i], v1); 
        for (size_t j = 0; j < features.size(); j++) {
            voc.transform(features[j], v2);

            double score = voc.score(v1, v2); //这里才是真正计算图像相似度
                                              //score = {0~1} 数字越大表示越相似
            cout << "Image " << i << " vs Image " << j << ": " << score << endl;
        }
    }

    // save the vocabulary to disk
    cout << endl << "Saving vocabulary..." << endl;
    voc.save("small_voc.yml.gz");
    cout << "Done" << endl;
}

本篇主要介绍了词袋库使用,并引入了几个概念,下文将对概念做详细解释

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值