基于飞桨PaddlePaddle的地标检索识别夺竞赛双料大奖,获奖方案全解析

近日,百度视觉团队基于飞桨(PaddlePaddle)深度学习平台,自主研发的地标检索/识别解决方案,在 Google Landmark Retrieval 2019[1] 和 Google Landmark Recognition 2019[2] 两个任务中都斩获第二名,并受邀在计算机视觉领域的顶级学术会议 CVPR 2019 上进行技术分享。Google 今年更新了目前最大的人造和自然地标...
摘要由CSDN通过智能技术生成
近日,百度视觉团队基于飞桨(PaddlePaddle)深度学习平台,自主研发的地标检索/识别解决方案,在 Google Landmark Retrieval 2019[1] 和 Google Landmark Recognition 2019[2] 两个任务中都斩获第二名,并受邀在计算机视觉领域的顶级学术会议 CVPR 2019 上进行技术分享。

Google 今年更新了目前最大的人造和自然地标识别数据集,发布了 Google-Landmarks-v2,数据集中包含超过 400 万张图片,描述了 20 万处类别地标。训练数据没有经过精细人工标注,类别数目严重不均衡,同一个地标的图像受到拍摄角度、遮挡、天气以及光线等影响很大,同时含有大量非地标数据,符合实际情况,非常具有挑战性。基于此数据集,今年总共吸引全球超过 300 支队伍参与了 Google 主办的地标检索识别竞赛。

 

640?wx_fmt=png

图 1 一些地标示例图像以及 top5 的检索结果

 

地标检索任务关注给定一张图像,需要找到给定数据库中所有相同的地标图像。评估数据超过 10 万张待查询图像(test 集合),以及将近 80 万的检索数据库 (index 集合)。

 

地标识别任务关注给定一张图像,标注该图像是不是地标,如果是地标,需要标注其在 20 万种地标的类别。

 

评估数据与地标检索任务的待查询图像相同,据比赛完推算,其中有地标的图像不到 2000 张。当前,百度视觉团队的获奖方案已经提交到 arxiv 上,并且在 Github 上开源代码。下面将为大家详细解读。

 

论文地址:https://arxiv.org/pdf/1906.03990.pdf

 

开源项目地址:https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/Research/landmark

 

地标检索解决方案

 

在地标检索比赛中,我们使用 ImageNet 预训练的模型参数作初始化,然后在 GLD v2(Google LandMark Dataset V2)上进行训练。网络结构上,我们使用了 ResNet 152 [4], ResNet200 [4], SE_ResNeXt152 [5] 和 Inception V4[6] 作为骨干网络。其中 ResNet 系列都是基于论文 [3],使用了 ResNet_VD 的改进版本,这 4 个模型在 ImageNet 上的 1000 分类任务上 top1 的准确率分别为 80.59%,80.93%,81.40% 和 80.77%。这些模型及训练方法都已经在飞桨的 Github 图像分类项目中开源 [7]。

 

640?wx_fmt=png

图 2 地标检索任务解决方案流程图

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于MediaPipe手势识别技术的虚拟鼠标实现中,手部关键点检测的核心是HandLandmark模型。HandLandmark模型是一种基于卷积神经网络的模型,可以对手指的位置和姿态信息进行高精度的识别。 HandLandmark模型的结构采用了一种称为EfficientNet的轻量化卷积神经网络结构,以提高模型的运行速度和效率。同时,为了实现更高的检测精度,HandLandmark模型还使用了一种称为Spatial-Depth Separable Convolutions的卷积核,能够更好地捕捉手部关键点的位置和姿态信息。 具体来说,HandLandmark模型的输入是一张经过预处理后的图像,输出是手部关键点的位置和姿态信息。模型的主要结构包括: 1. 特征提取层:使用EfficientNet网络结构,对输入的图像进行特征提取,以提高模型的运行速度和效率。 2. 手部关键点检测层:使用Spatial-Depth Separable Convolutions卷积核,对提取的特征图进行卷积操作,以识别手部关键点的位置和姿态信息。 3. 后处理层:对检测到的手部关键点进行后处理,包括非极大值抑制、点合并等操作,以提高检测精度和稳定性。 需要注意的是,HandLandmark模型是一个预训练模型,可以直接使用MediaPipe提供的API进行调用,无需自己训练模型。同时,为了提高手部关键点检测的准确度,可以通过调整模型的超参数、优化算法等手段,对模型进行进一步的优化和改进。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值