ECCV 2024 | 一张图实现街道级定位！AddressCLIP：端到端图像地理定位大模型-CSDN博客

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer111，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

AddressCLIP项目组投稿
转载自：量子位（QbitAI）

拔草星人的好消息来啦！

中科院自动化所和阿里云一起推出了街景定位大模型，只要一张照片就能实现街道级精度的定位。

有了模型的帮助，再也不用害怕遇到种草“谜语人”了。

比如给模型看一张旧金山的街景之后，它直接给出了具体的拍摄位置，并列举了附近的多个候选地址。

该模型名为AddressCLIP，基于CLIP构建。‍

相关论文AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization已入选顶会ECCV2024。

传统的图像位置识别往往致力于以图像检索的方式来确定图像的GPS坐标，这种方法称为图像地理定位。

但GPS对于普通人来说晦涩难懂，并且图像检索需要建立并维护一个庞大的数据库，难以本地化部署。

本篇工作提出了更加用户友好的，端到端的图像地理定位任务。二者的对比示意图如下：

针对这个任务，为了实现上述效果，研究人员主要从数据集构建与定制化的模型训练两方面入手开展了研究。

图像地址定位数据集构建

图像地址定位本质上是需要将街景图像与地址文本进行图文模态的对齐，因此首先需要收集大量的图像-地址对。

考虑到现有的用于多模态训练的图文数据中包含地址信息的数据比例过于稀少，研究人员选择基于图像地理定位中的图像-GPS数据对进行数据集的构造。

具体来说，通过使用地图中的Reverse Geocoding API，可以对一个GPS查询到一系列的相近的地址。

接着，通过筛选、投票等数据清洗机制，可以过滤得到每个图像的街道级地址文本。

这一过程如下图所示：

然而，考虑到街道本身的长短分布差异巨大，导致这个分布极度不均衡，同时街道级别的定位精度仍然过于粗糙。

因此，研究人员模仿人类描述位置的习惯，对于街道级别的地址进行了进一步的语义地址划分。

该过程通过使用道路交叉的十字路口等信息来对地址信息进行加强，其具体过程以及最终形成的地址文本描述如下：

最终，论文构造了位于两个城市，三种不同尺度的数据集，相关数据信息如下：

AddressCLIP具体实现

有了上述街景-地址文本的数据准备之后，似乎直接模仿CLIP的方式进行对比学习的微调即可。

但考虑到本任务的图像-文本数据对的语义关联十分微弱，这和CLIP预训练的数据存在着比较大的差异。

因此研究人员首先从数据和损失函数层面进行了对CLIP原始的训练框架进行了改进。

具体来说，借助以BLIP为代表的多模态生成模型的图像标注能力，研究人员对于训练数据中每个街景图像进行了语义文本的自动化标注。

然后，作者将语义文本与地址文本按照一定规则直接进行拼接，显式的弥补了本任务和CLIP预训练任务的差异。

这样一来，微调过程优化更加容易，并且也能过通过语义隐式增强了地址文本的判别性。

此外，考虑到图像特征，地址文本特征在预训练特征空间的分布可能是十分不均匀的。

受到流形学习的启发，作者认为本任务中图像-地址文本的理想特征应该位于一个和真实环境匹配的低维流形上。

具体来说，研究人员们引入了在真实地理环境中距离相近的两个点，其地址与图像特征在特征空间也应当接近，反之亦然这一假设。

利用图像与图像两两之间归一化后的真实地理距离来监督它们在特征空间中的距离，从而实现了图像特征与真实地理环境的在距离层面的匹配，使得模型学到的特征空间更加均匀。

因此，AddressCLIP将经典的CLIP损失优化为图像-地址文本对比损失，图像-语义对比损失以及图像-地理匹配损失，最终实现了准确、均匀的图像-地址文本对齐。

完成上述训练后，AddressCLIP可以通过给定候选地址集的形式进行推理。

值得一提的是，得益于模型将图像与各种地址的良好对齐，推理所用的候选文本可以是十分灵活与多样的形式，而非一定要按照训练集的书写规则。

效果优于通用多模态模型

在定量实验结果中，团队主要将模型与与zero-shot的CLIP，直接对齐地址的CLIP以及各种CLIP微调策略方法等进行对比。

可以看到，AddressCLIP在不同数据集，不同指标上均优于各个所比较方法。

在定性实验中，论文主要展示了AddressCLIP在推理形式上的灵活性与泛化性。

通过给定不同精细程度的地址文本的查询（如街区，街道，子街道），模型都可以在测试集图像上展示出与其真实覆盖地理分布一致的激活。

此外，研究人员也畅想了这一任务与数据集与多模态大模型结合的场景。

通过将数据集构造成关于地址问答的多轮对话形式，团队对LLaVA-1.5-vicuna进行了视觉指令微调，实现了对图像地址的生成式识别。

在与前沿多模态模型的对比中展现出明显的优势，尤其是针对图像中不存在地标与明显线索的图像。

作者预计，未来这一技术可以进一步扩展应用于社交媒体基于位置的个性化推荐上，或者与多模态大模型结合进行更加丰富的地址，地理信息相关问答，提供更加智能的城市、地理助手。

论文地址：
https://arxiv.org/abs/2407.08156
项目主页：
https://addressclip.github.io
GitHub：
https://github.com/xsx1001/AddressCLIP

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer111，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer111，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

ECCV 2024 | 一张图实现街道级定位！AddressCLIP：端到端图像地理定位大模型

AddressCLIP项目组 投稿转载自：量子位（QbitAI）

图像地址定位数据集构建

AddressCLIP具体实现

效果优于通用多模态模型

AddressCLIP项目组投稿
转载自：量子位（QbitAI）