基于飞桨PaddlePaddle的地标检索识别夺竞赛双料大奖，获奖方案全解析

最新推荐文章于 2023-10-20 00:35:15 发布

kasdfu

最新推荐文章于 2023-10-20 00:35:15 发布

阅读量336

点赞数 1

本文链接：https://blog.csdn.net/kasdfu/article/details/103739095

版权

近日，百度视觉团队基于飞桨（PaddlePaddle）深度学习平台，自主研发的地标检索/识别解决方案，在 Google Landmark Retrieval 2019[1] 和 Google Landmark Recognition 2019[2] 两个任务中都斩获第二名，并受邀在计算机视觉领域的顶级学术会议 CVPR 2019 上进行技术分享。Google 今年更新了目前最大的人造和自然地标...

摘要由CSDN通过智能技术生成

近日，百度视觉团队基于飞桨（PaddlePaddle）深度学习平台，自主研发的地标检索/识别解决方案，在 Google Landmark Retrieval 2019[1] 和 Google Landmark Recognition 2019[2] 两个任务中都斩获第二名，并受邀在计算机视觉领域的顶级学术会议 CVPR 2019 上进行技术分享。

Google 今年更新了目前最大的人造和自然地标识别数据集，发布了 Google-Landmarks-v2，数据集中包含超过 400 万张图片，描述了 20 万处类别地标。训练数据没有经过精细人工标注，类别数目严重不均衡，同一个地标的图像受到拍摄角度、遮挡、天气以及光线等影响很大，同时含有大量非地标数据，符合实际情况，非常具有挑战性。基于此数据集，今年总共吸引全球超过 300 支队伍参与了 Google 主办的地标检索识别竞赛。

640?wx_fmt=png

图 1 一些地标示例图像以及 top5 的检索结果

地标检索任务关注给定一张图像，需要找到给定数据库中所有相同的地标图像。评估数据超过 10 万张待查询图像（test 集合），以及将近 80 万的检索数据库 (index 集合)。

地标识别任务关注给定一张图像，标注该图像是不是地标，如果是地标，需要标注其在 20 万种地标的类别。

评估数据与地标检索任务的待查询图像相同，据比赛完推算，其中有地标的图像不到 2000 张。当前，百度视觉团队的获奖方案已经提交到 arxiv 上，并且在 Github 上开源代码。下面将为大家详细解读。

论文地址：https://arxiv.org/pdf/1906.03990.pdf

开源项目地址：https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/Research/landmark

地标检索解决方案

在地标检索比赛中，我们使用 ImageNet 预训练的模型参数作初始化，然后在 GLD v2（Google LandMark Dataset V2）上进行训练。网络结构上，我们使用了 ResNet 152 [4], ResNet200 [4], SE_ResNeXt152 [5] 和 Inception V4[6] 作为骨干网络。其中 ResNet 系列都是基于论文 [3]，使用了 ResNet_VD 的改进版本，这 4 个模型在 ImageNet 上的 1000 分类任务上 top1 的准确率分别为 80.59%，80.93%，81.40% 和 80.77%。这些模型及训练方法都已经在飞桨的 Github 图像分类项目中开源 [7]。

640?wx_fmt=png

图 2 地标检索任务解决方案流程图

最低0.47元/天解锁文章

kasdfu

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于飞桨PaddlePaddle的地标检索识别夺竞赛双料大奖，获奖方案全解析

近日，百度视觉团队基于飞桨（PaddlePaddle）深度学习平台，自主研发的地标检索/识别解决方案，在 Google Landmark Retrieval 2019[1] 和 Google Landmark Recognition 2019[2] 两个任务中都斩获第二名，并受邀在计算机视觉领域的顶级学术会议 CVPR 2019 上进行技术分享。Google 今年更新了目前最大的人造和自然地标...
复制链接

扫一扫