图像检索公开数据集

人工智能(AI)类似于建造一艘火箭飞船,需要一个巨大的引擎和大量的燃料。火箭引擎是深度学习模型,燃料是我们可以为这些算法提供的大量数据。

-------Andrew Ng

数据是一切算法应用的基础,无论是监督学习需要标注好的数据进行训练,还是无监督学习需要对数据进行分析、考量,数据都是不可或缺的。一个任务或一项工程的大力度推进或发展离不开公开数据集的构建,重复
的进行数据采集、标注是耗费人力和物力的,并且同一任务在不同数据集上的比较也是毫无意义的,所以公开数据集是十分重要的基础架构。在工程应用上,如果能找到与业务场景相关的公开数据,那无疑是十分开心的一件事情。
除了一些著名的数据集,图像公开数据集汇总这个网站提供了大量的图片数据集的汇总介绍,包括多个任务方面,分类、检测、分割、检索等。

下面是总结的一些图像检索可用的公开数据集,会以内容为分(持续更新):

地标建筑

名称时间规模收集方式规模特点论文
Oxford5K2007牛津大学建筑通过关键字在Flickr上查询下载图片 每一个query对应good、ok、junk list文件,作为ground truthtotal:5062 query: 55 (11*5)除提供.jpg格式图片外,还提供sift描述符的压缩二进制文件等Object retrieval with large vocabularies and fast spatial matching(cvpr2007)
Paris6k2008巴黎地标与Oxford5K相同(查询关键字不同)total:6412 query: 55(11*5)仅提供.jpg格式图片Lost in Quantization: Improving Particular Object Retrieval in Large Scale Image Databases(cvpr2008)
Revisiting Oxford2018牛津大学建筑基于Oxford5kquery 50->70修复原来数据标注问题 增加数据 标签细化Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking(CVPR2018)
Revisiting Paris2018巴黎地标基于Paris6Kquery 50->70修复原来数据标注问题 增加数据 标签细化Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking(CVPR2018)
Google landmarks2017地标数据-total:200万张图片 3万个独特地标kaggle 比赛Large-Scale Image Retrieval with Attentive Deep Local Features( ICCV’17)
Google landmarks-v22019地标数据摄影社区众包进行实例标注total:超过500万张图像 超过20万个不同的地标kaggle 比赛Detect-to-Retrieve: Efficient Regional Aggregation for Image Search (CVPR’19)
Landmark 3D2012地标数据web 图片和3D模型(点云)total:4518025个地标 ;45,180个数据库图像(每个地标1.4K2K);10,000个正面query用于评估(每个标志400个);3D模型中约270万个3D点(每个地标29K223K); 约有5800万个SIFT3D Visual Phrases for Landmark Recognition". in Proc. of the 25th IEEE Conference on Computer Vision and Pattern Recognition (CVPR2012)
Paris500k2013地标建筑数据集是从Flickr和Panoramio收集的地标图像。图像具有“自然”分布,数据集非常具有挑战性,因为存在重复和近似重复,以及大量不相关的图像,例如派对,宠物等的照片total:501,356提供79个地标建筑的94303张图片clustering ground truthDiscovering Details and Scene Structure with Hierarchical Iconoid Shift(ICCV2013)
ZuBuD/ZuBuD+2003/2017建筑ZuBuD+ 是对ZuBuD的扩展,主要是增加了测试图片 评估方式:TOP5total:1005 training data/1005 test_balance data每个图像有201个建筑物,每个视图有五个视图,提供训练数据、相同数量的测试数据、ground truth file 和 用于评估的python程序A location-aware embedding technique for accurate landmark recognition(2017)
  • 7
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 深度学习图像检索(CBIR)是指使用深度学习方法来实现从图像库中快速、准确地检索到与查询图像相似的图像。在过去的十年中,CBIR领域取得了显著的进展和突破,成为计算机视觉领域的研究热点之一。 随着深度学习的迅猛发展和图像数据的快速增长,CBIR在图像搜索、目标识别、智能推荐等领域得到了广泛应用。在CBIR的发展过程中,主要涉及到以下几个方面的研究和进展。 首先,深度学习网络的设计和优化成为CBIR技术快速发展的核心。传统的CBIR方法主要依赖手工提取的特征,但深度学习可以自动从图像中学习逐层抽象的特征表示,使得图像检索更加准确和有效。卷积神经网络(CNN)在图像特征提取方面取得了重大突破,并且通过不断改进网络结构、使用更加复杂的模型(如残差网络和注意力机制)取得了更好的检索性能。 其次,大规模数据集和深度学习模型的训练为CBIR的效果提供了更好的基础。通过在大规模图像数据集上进行训练,深度学习模型可以学习到更加丰富和泛化的特征表示,从而提高检索的准确性。而且,使用预训练的模型和迁移学习的方法可以减少数据需求和训练时间,加速CBIR系统的搭建。 另外,多模态深度学习的应用也为CBIR的发展带来了新的机遇。将图像和其他类型的多媒体信息(如文本、音频)融合在一起,可以更全面地描述图像,提高检索的效果。多模态深度学习方法的研究已经成为CBIR领域的热点之一。 最后,深度学习图像检索在实际应用中还面临一些挑战,如大规模图像库的索引和检索速度、图像语义理解、模型可解释性等。解决这些挑战需要进一步开展深入研究和探索。 总之,十年来,深度学习图像检索作为一种新兴的方法和技术,已经取得了很大的进展和突破。通过不断改进和发展,CBIR有望在图像搜索和识别等领域发挥更加重要的作用。 ### 回答2: 深度学习图像检索(Content-Based Image Retrieval,CBIR)是指利用深度学习算法进行图像检索的技术。在过去的十年中,CBIR得到了快速的发展和广泛的应用。 首先,随着深度学习算法的不断进步,CBIR的精度得到了极大的提高。深度学习模型可以学习到更高层次的特征表示,其中包括颜色、纹理、形状等多种视觉信息。与传统的手工设计特征相比,深度学习模型具有更好的泛化能力和鲁棒性,可以更好地理解和表示图像内容。 其次,在十年的时间里,大量的深度学习图像检索方法被提出和研究。从基于全局特征的方法到基于局部特征的方法,再到结合全局和局部特征的方法,不断有新的模型和算法被提出。例如,基于卷积神经网络(CNN)的方法在图像识别领域取得了显著的成果,并被广泛应用于图像检索任务。 此外,随着深度学习技术的成熟和硬件的快速发展,CBIR的效率也得到了提高。通过使用GPU并行计算和深度学习模型的优化,检索速度大大加快,从而使得CBIR在实际应用中更具可行性。 最后,CBIR在许多领域中得到了广泛的应用。例如,在医学影像中,CBIR可以帮助医生快速检索出与患者病例相似的影像,辅助诊断和治疗。在商业领域中,CBIR可以帮助用户更快速地找到所需商品,并提供相关的推荐服务。 总而言之,过去十年中,深度学习图像检索在精度、方法、效率和应用方面取得了重要的进展。随着技术的不断演进,相信CBIR将继续在各个领域中发挥重要作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值