- 博客(65)
- 问答 (1)
- 收藏
- 关注
原创 CDBench论文精读
尽管这些现代深度学习方法在像素级和语义级变化检测方面取得了显著进展,但它们大多局限于特定领域,通常需要密集的标注,难以在多模态和多尺度数据上实现稳健的泛化,并且往往缺乏深入的语义推理能力来解释检测到的变化的重要性,尤其是在处理新的、未见过的或依赖上下文的微妙变化时。对一系列领先的mllms的基准测试显示,它们在这些细粒度的变化检测任务中具备一定的基础能力,但整体性能有限,相比之下我们的change-agent框架通过rag和专家视觉引导,显著提高了平均准确率。change-agent方法。
2025-06-09 22:54:47
481
原创 MMAD论文精读
另一些研究专门训练mllms去理解传统iad模型的输出,但采用的是传统模型输出评价标准,并不反映mllms本身的能力。数据生成:由于现有的开源IAD数据集缺乏语义标注,我们无法直接用于mllm评估,为此我们设计了一条新的流水线来为每张IAD图像生成评估问题。本文提出了一个专门针对IAD任务的RAG方法,专家在大模型的辅助下,首先对现有的IAD数据集进行总结。这类模型只能完成特定的训练检测任务,无法像质检员一样提供详细的检测报告,此外,一旦产线变更或需求调整,传统方法往往需要重新训练或开发,代价高。
2025-06-03 20:40:30
766
原创 change-agent论文精读
一些思考:之前看的RSUniVLM也是cd和llm结合,是把mask全部用自然语言去描述。这篇change-agent是,llm去做指令理解和工具调用,llm去写 实现cd的脚本。摘要:遥感影像变化解释(RSICI: rs image change interpretation)。当前rsici技术,涵盖了变化检测和变化描述两个方向,但这些技术都有局限性。
2025-05-05 00:24:13
1036
原创 RSUniVLM论文精读
一些收获:1. 发现这篇文章的table1中,有CDChat ChangeChat Change-Agent等模型,也许用得上。等会看看有没有源代码。摘要:RSVLMs在遥感图像理解任务中取得了很大的进展。尽管在多模态推理和多轮对话中表现良好,现有模型在像素级理解上存在不足,在处理多图像输入时也面临困难。RSUniVLM有变化检测和变化描述任务。
2025-04-24 23:01:11
660
原创 配置RSUniVLM环境(自用)
需要下checkpoints,在Google Drive上,要外网。那就还是传到那个能连外网的机子上,再导过来。镜像的话 在dockerhub找到了一个:docker pull vkashyap10/llava-next。首先git clone这个仓库,但是好像不太行,就直接下载下来吧。运行github上相应的命令去配环境,没碰到什么问题。等会看看怎么传到rd调研用的机器上。在容器里装一个icoding的vscode。创个容器弄,容器里需要conda gpu。接下来是跑代码环节了。
2025-04-24 23:00:55
261
原创 SkyEyeGPT论文精读
llm快速发展,扩展到vlm领域。shikra、miniGPT-v2在多粒度视觉-语言任务上达到sota水平。llava通过构造指令跟随数据集进行微调,为mllms提供了新的训练方式。RSGPT仅支持图像描述和 VQA 任务,无法进行多任务对话。需要针对不同任务训练独立的模型,导致泛化能力受限。GeoChat具备基于区域的问答和视觉定位能力,但无法处理多图像任务。「多图像任务是什么?比如跨时间序列分析、跨视角或多视角融合。多图像视觉问答是比如用户上传多长遥感影像并提出问题:这些图像中的共同特征是什么?
2025-04-19 13:37:01
770
1
原创 Table as Thought论文精读
llm的推理能力可以通过某些 组织其思维过程的方法 得到提升。比如cot,这种方法采用顺序结构来一步一步引导推理过程。「Q:什么是cot A:chain of thought链式思维提示,不是让模型直接给答案 而是引导模型一步一步思考」然而,目前方法主要专注于组织思维的顺序,每一步内部的结构还缺乏深入研究。因此我们提出了table as thought,受认知神经科学的启发。该方法将推理过程组织在一个表格结构中,每一行表示一个连续的思考步骤,每一列用于记录关键的限制条件和上下文信息。
2025-04-03 21:04:00
968
原创 Anywhere文章精读
近期,基于图像的图像生成(image-conditioned image generation)取得了显著进展。然而,基于前景的图像生成(foreground-conditioned image generation)研究相对较少,面临很多挑战。例如目标完整性受损,前景与背景不一致,生成结果的多样性受限以及控制灵活性偏低。
2025-04-02 17:19:44
657
原创 GeoChat : Grounded Large Vision-Language Model for Remote Sensing论文精读
是一个针对遥感场景的llm,提供支持多任务对话(对高分辨率遥感图像)。也造了个数据集。一些思考:文中提到的局限性:小物体和多框预测较难。小物体在图像中占比小,可能特征不足难以正确定位。模型可能倾向于预测单一框,而且多个框可能会目标重叠。也许可以用布匹数据集,变成布匹瑕疵的问答。。。。gpt说可以轻量化(lora 蒸馏)提升推理效率以下是边读边记的草稿。。。。。普通VLM是针对自然图像,遥感图像表现较差,可能出现不准确的信息或幻觉。
2025-03-25 23:35:34
743
1
原创 读博士论文(未完待续)
1. 如何提取有效的影像特征:现有的框架大多直接从图像的语义分割领域迁移而来,缺乏对遥感变化检测任务的独特思考。一方面,高分辨率遥感影像具有复杂的地物类型和多样的光谱信息,导致影像特征提取难度较大;另一方面,区别于单输入的语义分割,变化检测同时输入两期或多期遥感影像,如何在多期影像中保持一致的特征表示,并从中提取与变化检测任务高度相关的特征也是一项挑战。弱监督(仅提供图像级监督信息):提出一种基于类激活映射CAM的定位能力和SAM的零样本迁移能力的框架。中国矿业大学 作 者 汪路康 导 师 史文中。
2025-03-20 20:30:55
177
原创 VScode的debug
如果在调试时,当前代码行包含一个函数调用,使用“step into”会进入该函数的内部,然后继续逐行调试。:如果你已经进入了一个函数内部,使用“step out”会运行完当前函数的所有剩余代码,然后将调试器控制权返回给调用该函数的位置。:当你在函数内部调试时,发现不需要再查看函数的其余部分,或者已经找到问题的原因,可以使用“step out”跳出函数。:当你不需要查看函数的内部细节,只想验证当前函数的返回值或执行效果时,使用“step over”。:运行当前函数中的剩余代码并返回到调用该函数的地方。
2025-03-19 15:10:21
924
原创 文章精读篇——用于遥感小样本语义分割的可学习Prompt
2. few-shot语义分割:现有的 FSS 方法主要关注新类别的分割,而忽略了基础类别的分割。在实际应用中,目标图像可能同时包含基础类别和新类别,因此需要模型能够同时分割这两类。:目标是在仅有少量标注样本的情况下,对图像中的新类别(novel classes)进行分割。1. 边界不连续是指在图像分割任务中,当图像被分割成多个小块(patches)进行独立预测时,块与块之间的边界区域可能会出现不一致或不连续的分割结果。:在引入新类别时,模型可能会忘记之前学习到的基础类别知识,导致基础类别的性能下降。
2025-02-23 22:42:12
517
原创 文章精读篇——OMG-Seg
其中视频分割提到了tube mask,但是我不太理解tube mask是什么样子的。大概就是每一帧都有mask吧。interactive segmentation中,编码过程是将每个visual prompt(比如一个点坐标或一个矩形框)转化为一个对象查询向量。Open-Vocabulary and Multi-Dataset Segmentation中,在视觉任务中使用CLIP 文本嵌入。
2025-02-23 20:16:50
905
原创 CD的survey 边读边记(自用)
传统的二值变化检测(BCD)只关注双时态图像之间的变化和无变化区域,这导致了应用的局限性为了更全面地概述不同类别的 MCD 方法,本节根据变化的不同类别将 MCD 分为三类:1)三元变化 检测,2)多重变化检测,3)语义变化检测。与传统的BCD仅检测变化区域不同,三元 CD的目的是检测变化并对正变化和负变化进行分 类。在实践中,正变化类(C+)通常代表新的人工 特征(例如洪水后重建的建筑物),而负变化类 (C-)则代表相反的变化。笼统地说,C+是出现的 变化类,C-是消失的变化类。
2025-02-16 21:53:13
432
原创 文章精读篇——OMG-LLaVA
题目:OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding。主页:https://lxtgh.github.io/project/omg_llava/论文:http://arxiv.org/abs/2406.19389。先不读了吧 这个就分割 不是双输入变化检测的 下次有空再读。
2025-02-13 18:43:12
159
原创 变化检测相关论文可读list
论文:https://openaccess.thecvf.com/content/CVPR2024/html/Scheibenreif_Parameter_Efficient_Self-Supervised_Geospatial_Domain_Adaptation_CVPR_2024_paper.html。开源代码:https://github.com/NUST-Machine-Intelligence-Laboratory/PKINet。有遥感微小目标检测网络、基于DETR的预训练框架改进遥感目标检测。
2025-02-12 23:30:26
689
原创 变化检测论文阅读合集
主要结论:在本文中,我们提出了一种名为 Change-CLIP 的多模态框架,用于利用多模态视觉语言信息进行遥感图像变化检测。差速器提出的特征补偿模块集成了常用的差分特征计算方法,优化了变化检测中差分特征融合的方式。它补充了解码阶段的语义信息。为了评估 ChangeCLIP 的有效性,我们对 5 个基准变化检测数据集进行了综合实验:LEVIR-CD、LEVIR-CD+、 WHUCD、CDD 和 SYSU-CD。实验结果表明,我们提出的模型显着优于最先进的方法,在所有 5 个数据集上实现了前所未有的性能。
2025-02-09 00:43:28
671
原创 ChangeCLIP环境配置
根据github上的提示改改数据集路径,设置CDPATH。(最好设置一下,因为里面自带的很多脚本会直接调用这个变量)ok首先需要root权限的用户 才能用docker,其次要外网,要不然有些东西好像下载不了。我看12服务器上有个openmmlab的环境,先基于这个环境吧。其中有个gdal包,pip装不上,gpt说用conda试试。看到有个现成的dockerfile,先试试。
2024-10-29 23:20:46
338
1
原创 视听分割相关论文阅读
RVOS(视频中的参考对象分割)比RIS(图像中的参考对象分割)要困难得多,因为指代动作的文本表达通常无法从单个静态帧中正确推断出来。此外,与基于图像的方法不同,RVOS方法可能需要在多帧中建立被参考对象的数据关联(跟踪),以应对遮挡或运动模糊等干扰。本文使用标准的基于Transformer的文本编码器从文本查询中提取,并使用时空编码器从视频帧中提取。然后,将这些特征传递到多模态Transformer中,该Transformer输出。
2024-06-17 14:35:09
669
1
原创 跑mask2former(自用)
(列出所有容器状态)(创建docker容器,用镜像11.1:v6,容器名称为mask,将主机目录挂载到容器内的/mask目录。这允许容器访问和使用主机上的该目录中的文件和数据。(列出本地所有docker镜像)(运行容器)(停止容器)
2024-06-06 13:50:21
954
1
原创 javaWeb入门(自用)
用于将表单元素的值与 Vue 实例中的数据进行绑定,使得当表单元素的值发生变化时,Vue 实例中对应的数据也会随之更新,反之亦然。(要不然你就要写得很麻烦,如果一个改了,要用代码去写另一个跟着改)将 Vue 实例中的数据绑定到 HTML 模板中,使得数据能够动态地显示在页面上。意思就是,你改框里的,外面会跟着改。(外面这个是个插值表达式,即用双大括号。此次使用的是vue2,注意引入src的版本。
2024-05-08 21:47:30
441
1
原创 多卡环境 设置某张卡跑某程序
如果要在使用screen命令时指定CUDA设备,正确的方法是在screen命令之前设置环境变量。由于screen会启动一个新的shell会话,直接在命令中设置环境变量可能不会按预期工作。因此,你需要先导出环境变量,然后再启动screen会话。首先,你需要在启动screen会话之前,在同一个命令行环境中导出环境变量。这条命令会设置环境变量,使得所有接下来在这个终端会话中运行的CUDA程序只能看到和使用第一个GPU(假设编号为0)。: 环境变量设置完成后,你可以使用原来的命令启动screen。
2024-04-08 01:27:50
524
原创 跑mmdec(自用)
进服务器先conda activate openmmlab如果没有conda初始化的话,要先然后cd mmdetection进目录。
2024-04-04 01:41:21
344
原创 配mmdetection
总流程:(图片截取自这个网站图片上的链接:https://mmcv.readthedocs.io/en/latest/get_started/installation.html。
2024-04-02 20:36:55
346
原创 GitHub学生认证
支付信息:点击Settings,找到Payment Information,直接填好就行。我先是用有道网页翻译把学信网的报告翻译成了英文,然后截图传上去, 给我这个答复。再传文件上去,提示不能传一摸一样的文件,就重新截张图传上去。我就参考这个手写了一份,交上去了。文件、证明之类的一定要用。
2024-03-27 15:05:20
431
1
原创 macOS安装和使用mongoDB(homebrew)
Homebrew 是 macOS 的一个包管理器,可以非常方便地安装 MongoDB 和其他软件。如果你还没有安装 Homebrew,可以从它的。已安装 Homebrew的话,先更新一下homebrew。
2024-03-27 13:39:37
788
原创 一些有关目标检测的学习()
GitHub - open-mmlab/mmdetection: OpenMMLab Detection Toolbox and BenchmarkMMDetection框架入门教程(完全版)-CSDN博客mmyolo/configs/yolov8 at dev · open-mmlab/mmyolo · GitHub
2024-03-26 19:46:10
269
原创 macos配置maven
文件中已经有了一些配置,特别是Anaconda的初始化脚本,你应该在这段脚本的下方添加你的Maven环境变量配置,以避免干扰已有的配置。这样可以确保既完成了Maven的配置,又保留了Conda的初始化设置。我打开来看到之前配过conda的,和教程里不一样。那就在之前的配置下方添加就好了。配置环境变量vim ~/.bash_profile。官网上下载一个zip。
2024-03-25 14:54:42
550
空空如也
请问用官方文件申请JetBrain的学生版,收到邮件中的链接打不开怎么办
2021-10-25
TA创建的收藏夹 TA关注的收藏夹
TA关注的人