LiXiang like coding吗-CSDN博客

原创 minimind学习日记（自用）

我感觉有2种主要学习方法看官网github里面的文档和看b站视频先直接阅读文档吧。这里面有什么？dense+moe结构全部代码、tokenizer训练代码，pretrain sft lora rlhf-dpo rlaif-ppo/grpo/spo 模型蒸馏的全过程训练代码、所有数据集开源等等预训练：python train_pretrain.py监督微调（学说话方式） python train_full_sft.py那么我现在去看这两个文件里面有什么。目录位于trainerget_lr。

2026-04-27 21:23:11 69

原创毕设修改日记（自用）

看一下两个意见第一个第二个第四章对智能体的设计较为简单，过于工程化，创新性不足。如对于多轮对话的设计、上下文管理，具体实验效果等，都介绍不够充分。望作者予以加强。那么我先修改这个说我过于工程化、介绍不够充分的问题。然后再去修改第五章合并到第四章这种小问题。我看了一下，我第四章的目录是4.1 遥感agent总体架构（35-37）4.2 数据集构建（37-42）4.3 prompt自动优化模块（42-46）4.4 基于react范式的多轮对话管理模块（46-48）

2026-03-06 15:19:22 59

原创毕设日记（开始写论文版）

一个规划：1.15把大概的框架想好，写完第一章想想怎么让AI写。那让cursor写？毕竟能看见代码，也许写得好一点。哦不过cursor是写代码比较好吧，写文章换个ai。哦对，还要充一下gemini会员。到时候图也要重新画。那画图放在最后吧，我觉得画图也要一两天的。先把代码传一下github吧。。晚点再看看上一届画的图是什么风格的prompt：我的毕业论文，第三章内容是@MMchange-main ，第四章是@rschatgpt ，第三章主要创新：问题1:文本编码的语义局限性。

2026-01-19 00:47:29 398

原创百度网盘bypy使用

出现几百 MB 就说明成功，程序再也不会报 “No such file or directory”。非会员大概 100 KB/s，2 GB 文件要 5-6 小时；临时用可借会员号，或睡前挂着。→ 登录你的百度账号 → 点“授权” → 把页面里那串。+直链，但得自己抓 cookie，最稳还是让它慢慢跑。只要分享页还能打开，就重新保存再移动一次即可。（全程不用图形界面，服务器里搞定。→ 点“保存到网盘” → 选。（没有就新建这个文件夹）。按上面 1-2-3 步，仍在网页端，把刚保存的。，剩下的就是等它下完。

2025-12-19 22:51:48 613

原创关于毕设思路「日记形式」

目前有个问题就是，本来是img_featureA、B和text_featureA、B，同种feat之间做差，然后互相之间做融合。但是发现不小心text_featureA、B用的都是change captioning的文字，也就是两个文字特征是一样的，导致模型坍塌成了仅依靠图像的。如果要重新生成texta和b，应该可以直接去autodl找个现成的镜像，里面搭载image captioning的模型。只有变化了和未变化两类。能不能弄成三个分支，一个用图像特征，一个用两个文字特征的差，另一个之间用变化描述？

2025-12-08 21:55:49 167

原创 audl服务器上 huggingface缓慢

前情提要：试了很多种方式，无法下载，包括snapshot_download、hf_hub_download、wget 等。运行了这个脚本之后，直接顺利了。

2025-12-06 18:29:51 298

原创 change-detection关于llm方向的任务与优化

还有一种任务是，有change detection、边缘分割等工具，造一个QA数据集，看工具调用的正确率。数据集：levir-mci。

2025-12-06 17:20:30 171

原创 rschatGPT源码学习

1. 这个直接读取字符串，用字典推导式生成字典。不用那种写循环，然后循环里面拆分赋值load_dict[class_name] = device。看起来入口是RSChatGPT-shell.py，这里面的主函数。

2025-12-06 17:19:06 205

原创 change clip架构学习

changeclip是在算diff的时候这样加权，而mmchange是在text和image特征融合的时候，各种注意力得到一个维度为bchw的权重，调控text和image的融合。为了利用 CLIP 的能力，这里使用了两个并行的编码器流，分别处理 A 时刻和 B 时刻的数据。「此处，ResNet要多一步的原因是，resnet是cnn，得到的是二维空间结构而不是序列。来处理当前层的特征和上一层传下来的特征。这一阶段的任务是将前面的差分特征逐步放大（上采样），恢复到原始图像的分辨率，并输出最终的变化检测结果。

2025-12-06 17:18:53 860

原创 change-agent源码阅读

change-agent中用的是多分类的指标：miou（所有类别iou的平均值）、acc（像素准确率）、acc_cls（对每个类别的准确率取平均）、FWIoU_seg（频率加权的交并比，根据类别出现的频率取平均）、类别交并比IoU (Class-wise)[0.9810, 0.7954, 0.8200]1. thought: dict = dict(role='THOUGHT', begin='Thought:', end='\n', belong='assistant')是传入的参数，初始化为一个字典。

2025-11-27 17:34:35 775

原创变化检测论文找模块缝合（自用）

论文提出的优化方向：自监督/弱监督、轻量化实时化（采用动态推理无明显变化的图像对提前退出文本分支、将ifr tde itff重参数化为单一推理网络）、开放世界变化检测（引入视觉-语言开放分类词汇头，支持零样本新类别变化，无需重新完整训练模型）数据集：LEVIR-CD、LEVIR-CD+、S2Looking、CDD、SYSU-CD 和 WHU-CD。论文试图解决的问题：图像模态语义层次不足、文本模态差异利用不充分、跨模态异质信息融合困难。数据集：CLCD LEVIR-CD SYSU-CD。

2025-11-05 01:27:33 763

原创面试可能的问题（自用）

矩阵X中的每一行，表示输入句子中的每一个词的词向量，QKV三个矩阵来自同一输入，首先计算q和k之间的点积，为了防止结果过大用softmax操作将其结果归一化为概率分布，再乘以V就得到权重求和的表示。padding mask：每个批次输入序列的长度不一样，所以要对在较短的输入序列后面补0，太长的是截断。编码器的输入先流入sa层，它可以让编码器在对特定词进行编码时，使用输入句子时其他词的信息，然后sa层的输出流入ffn。具体做法：产生一个上三角矩阵，上三角的值全为0，把这个矩阵作用在每个序列上即可。

2025-11-05 01:26:07 359

原创 HSANet源码阅读（自用）

2. proj_value = value.view(m_batchsize, -1, width*height)这里面，-1的含义是pytorch根据其他维度的大小，和原始张量总元素数自动推断该维度的大小。我们想要的输出是，输出位置1 = a11 × v1 + a12 × v2 + a13 × v3，而a11 a12 a13在attention矩阵中是行，我们要变成列的形式，才能使得矩阵乘法输出的是我们想要的。1. 这个是在空间维度上做自注意力，把特征图B，C，H，W展平成N = H*W个位置。

2025-09-22 21:31:50 849

原创 mmchange论文精读

摘要：传统rscd方法大多基于图像模态（像素级对比），作者提出MMChange，引入多模态（图像+文本）提升效果。核心创新：IFR模块（对图像特征做精炼，强化变化区域，弱化背景干扰）、VLM引入文本（通过视觉语言模型，将图像转换为语义描述，让模型具备更高层次的语义理解）、TDE模块（比较前后时相的文本描述，挖掘语义层面）、ITFF模块（跨模态融合）。引言：介绍什么是rscd、前人方法（传统的和深度学习的，深度学习的主要集中在单模态图像的变化检测）。近来，多模态学习是热点。本研究的动机有xxx。

2025-09-20 23:42:46 225

原创 transformer详解（自用）

注意力机制解决的问题：1. 长距离遗忘问题（随着序列长度的增加，远距离传递信息在传递过程中易被稀释）2. 解决不同时间步对当前时刻输出的重要性问题（所有时间步的输入在计算当前时刻输出时被同等对待，忽略了不同时间步对当前时刻输出的重要性可能存在的差异）transformer训练的过程中，同时在每个位置上做编码，同时在每个位置上做生成（生成词的后面mask掉，用编码器的输出和前面位置的生成当前位置）。把512*512的qkv矩阵，拆成8个512*64的，8头注意力，会效果更好，八个头会关注不同方面。

2025-09-16 12:46:15 276

原创力扣 python（自用）

注意的点：区间的定义左闭右闭（喜欢的话可以左闭右开），这样就可以注意while里面是小于等于更新mid的时候有+1 -1。语法要注意：python中/是除出来浮点数，//是除出来整数。没有else if。

2025-09-05 12:32:25 225

原创 torch学习自用

Dataset定义数据集的结构：需要实现__init__() __len__() __getitem__()这三个函数。dataloader定义如何读取数据：怎么批量加载、是否打乱、用几个进程批量读取。这里面df.iloc[]，逗号前面是取行，逗号后面是取列。「df是一个pandas.DataFrame对象」数据先转换成numpy类型，再转换成张量类型。1. Dataset和Dataloader。

2025-09-03 19:39:18 212

原创总结遥感agent模块

模块：大语言模型llm作为推理引擎、图像理解模块（将图像信息转化为文本树木位置以像素坐标形式存储，二维树冠轮廓采用ms coco的压缩格式存储）、领域知识库、llm执行agent（负责代码在本地环境中的执行）3. change-agent：重点是探索一种多层级变化解释方法MCI，既能提供像素级定位，又能实现语义级理解。方法：MCI Model、双时相迭代交互层（这个是用在了两个分支里面，不是独立模块）、变化检测与描述分支、LLM。这篇文章的相关工作只写了树木相关的。

2025-07-23 21:28:21 1508

原创 cd-agent更换cd模型（自用）

需求：将12服务器上，原有的cd-agent（目录为/home/xgq/agent），复制一份，重命名为/home/xgq/agent_lx。1. 换目录名后，直接运行看能不能跑，不能跑的话，看看是否要改一些路径（我觉得可能能直接跑，因为要用到路径的东西，实际上会去用原agent目录下的东西，有些东西是白copy了，但是为了简便就先这样吧）——✅我猜对了可以直接跑。2. 研究清楚changeFormer是怎么跑起来的，看看替换模型的话，需要添加什么东西（新的一整个模型的目录、代码上也看看怎么加）。

2025-07-04 22:16:09 332

原创 rs-agent论文精读

rs-agent集成四大核心组件：基于llm的中央控制器、动态工具包用于工具执行、面向任务专家指导的解决方案空间以及支持领域级推理的知识空间，使其能解析用户查询并协调工具完成精准遥感任务。本文提出rs-agent包含四大核心组件：中央控制器（基于llm解析用户查询、规划任务、执行工具、记忆交互历史并检索相关知识）动态工具包（集成遥感领域sota方法）解决方案空间（提供任务专家指导优化工具选择与执行流程）知识空间（存储领域专业知识与理论支持）----没写完先这样提交了吧----

2025-07-04 20:43:17 517

原创配置change-agent环境（自用）

在rd调研用的机器上找找有没有比较基础的镜像感觉这个看起来很基础，那直接起容器吧。不行，点进去发现是bml用户，估计比较麻烦。那还是用上次llava的镜像吧。按照github的指引配好了环境，其中torch==2.0.1+cu118这一步不行，就去torch官网（）找了命令装好环境后，下载数据集。

2025-07-02 11:38:45 503

原创 cd-agent迁移（自用）

export HF_ENDPOINT= https://hf-mirror.com 这样的话就可以从镜像的huggingface下权重。3. 权重迁移【/home/xgq/.cache目录只有一个clip的不过这个损坏了最终是重新下了权重】conda-pack可能会遇到之前的包冲突，装不上的问题，这个时候就创建一个新的干净环境来安装。1. 代码迁移【/home/xgq/agent目录】如果本地和远程有同名目录，会把本地的合并追加到远程。2. conda环境迁移【用conda-pack】

2025-07-02 11:31:50 234

原创 Molmo and PixMo论文精读

贡献：名为pixmo的全新数据集集合，包括：用于预训练的高细节图像描述数据集、用于微调的自由形式图像问答数据集、创新的2d指向数据集「2d指向数据集是一种专门用于训练vlm理解图像空间位置关系的新型标注数据，其核心是让模型学会将自然语言中的空间描述与图像中具体的2d坐标位置关联起来」，所有数据未使用外部vlm收集。我们的成功源于：谨慎的模型设计精心调优的训练流程最关键的是全新高质量数据集PixMo（Molmo的像素）。重叠patch：vit计算重叠的编码但是传给llm是只取非重叠区域的。

2025-06-19 20:38:21 364

原创调研 llm指标

BLEU是机器翻译领域最常用的评估指标，通过比较生成文本与参考文本的n-gram重叠度来评估质量。值范围通常为0-1（或0-100），表中可能是乘以100后的值。对每个n-gram进行TF-IDF加权（减少常见词的重要性）更注重召回率（参考文本中的信息有多少被生成文本覆盖）: 评估连续两个单词（2-gram）的匹配程度。: 评估连续三个单词（3-gram）的匹配程度。: 评估连续四个单词（4-gram）的匹配程度。: 评估单个单词（1-gram）的匹配程度。值范围0-1（或0-100）

2025-06-19 10:41:02 446

原创 CDBench论文精读

尽管这些现代深度学习方法在像素级和语义级变化检测方面取得了显著进展，但它们大多局限于特定领域，通常需要密集的标注，难以在多模态和多尺度数据上实现稳健的泛化，并且往往缺乏深入的语义推理能力来解释检测到的变化的重要性，尤其是在处理新的、未见过的或依赖上下文的微妙变化时。对一系列领先的mllms的基准测试显示，它们在这些细粒度的变化检测任务中具备一定的基础能力，但整体性能有限，相比之下我们的change-agent框架通过rag和专家视觉引导，显著提高了平均准确率。change-agent方法。

2025-06-09 22:54:47 591

原创 MMAD论文精读

另一些研究专门训练mllms去理解传统iad模型的输出，但采用的是传统模型输出评价标准，并不反映mllms本身的能力。数据生成：由于现有的开源IAD数据集缺乏语义标注，我们无法直接用于mllm评估，为此我们设计了一条新的流水线来为每张IAD图像生成评估问题。本文提出了一个专门针对IAD任务的RAG方法，专家在大模型的辅助下，首先对现有的IAD数据集进行总结。这类模型只能完成特定的训练检测任务，无法像质检员一样提供详细的检测报告，此外，一旦产线变更或需求调整，传统方法往往需要重新训练或开发，代价高。

2025-06-03 20:40:30 1163

原创 CDChat论文精读（先不看了只有cc没有cd）

只有变化描述没有逐像素的变化检测。

2025-05-05 00:28:50 233

原创 change-agent论文精读

一些思考：之前看的RSUniVLM也是cd和llm结合，是把mask全部用自然语言去描述。这篇change-agent是，llm去做指令理解和工具调用，llm去写实现cd的脚本。摘要：遥感影像变化解释（RSICI: rs image change interpretation）。当前rsici技术，涵盖了变化检测和变化描述两个方向，但这些技术都有局限性。

2025-05-05 00:24:13 1205

原创 RSUniVLM论文精读

一些收获：1. 发现这篇文章的table1中，有CDChat ChangeChat Change-Agent等模型，也许用得上。等会看看有没有源代码。摘要：RSVLMs在遥感图像理解任务中取得了很大的进展。尽管在多模态推理和多轮对话中表现良好，现有模型在像素级理解上存在不足，在处理多图像输入时也面临困难。RSUniVLM有变化检测和变化描述任务。

2025-04-24 23:01:11 835

原创配置RSUniVLM环境（自用）

需要下checkpoints，在Google Drive上，要外网。那就还是传到那个能连外网的机子上，再导过来。镜像的话在dockerhub找到了一个：docker pull vkashyap10/llava-next。首先git clone这个仓库，但是好像不太行，就直接下载下来吧。运行github上相应的命令去配环境，没碰到什么问题。等会看看怎么传到rd调研用的机器上。在容器里装一个icoding的vscode。创个容器弄，容器里需要conda gpu。接下来是跑代码环节了。

2025-04-24 23:00:55 413

原创 SkyEyeGPT论文精读

llm快速发展，扩展到vlm领域。shikra、miniGPT-v2在多粒度视觉-语言任务上达到sota水平。llava通过构造指令跟随数据集进行微调，为mllms提供了新的训练方式。RSGPT仅支持图像描述和 VQA 任务，无法进行多任务对话。需要针对不同任务训练独立的模型，导致泛化能力受限。GeoChat具备基于区域的问答和视觉定位能力，但无法处理多图像任务。「多图像任务是什么？比如跨时间序列分析、跨视角或多视角融合。多图像视觉问答是比如用户上传多长遥感影像并提出问题：这些图像中的共同特征是什么？

2025-04-19 13:37:01 988 1

原创 Table as Thought论文精读

llm的推理能力可以通过某些组织其思维过程的方法得到提升。比如cot，这种方法采用顺序结构来一步一步引导推理过程。「Q：什么是cot A：chain of thought链式思维提示，不是让模型直接给答案而是引导模型一步一步思考」然而，目前方法主要专注于组织思维的顺序，每一步内部的结构还缺乏深入研究。因此我们提出了table as thought，受认知神经科学的启发。该方法将推理过程组织在一个表格结构中，每一行表示一个连续的思考步骤，每一列用于记录关键的限制条件和上下文信息。

2025-04-03 21:04:00 1112

原创 Anywhere文章精读

近期，基于图像的图像生成（image-conditioned image generation）取得了显著进展。然而，基于前景的图像生成（foreground-conditioned image generation）研究相对较少，面临很多挑战。例如目标完整性受损，前景与背景不一致，生成结果的多样性受限以及控制灵活性偏低。

2025-04-02 17:19:44 764

原创 GeoChat : Grounded Large Vision-Language Model for Remote Sensing论文精读

是一个针对遥感场景的llm，提供支持多任务对话（对高分辨率遥感图像）。也造了个数据集。一些思考：文中提到的局限性：小物体和多框预测较难。小物体在图像中占比小，可能特征不足难以正确定位。模型可能倾向于预测单一框，而且多个框可能会目标重叠。也许可以用布匹数据集，变成布匹瑕疵的问答。。。。gpt说可以轻量化（lora 蒸馏）提升推理效率以下是边读边记的草稿。。。。。普通VLM是针对自然图像，遥感图像表现较差，可能出现不准确的信息或幻觉。

2025-03-25 23:35:34 1058 1

原创读博士论文（未完待续）

1. 如何提取有效的影像特征：现有的框架大多直接从图像的语义分割领域迁移而来，缺乏对遥感变化检测任务的独特思考。一方面，高分辨率遥感影像具有复杂的地物类型和多样的光谱信息，导致影像特征提取难度较大；另一方面，区别于单输入的语义分割，变化检测同时输入两期或多期遥感影像，如何在多期影像中保持一致的特征表示，并从中提取与变化检测任务高度相关的特征也是一项挑战。弱监督（仅提供图像级监督信息）：提出一种基于类激活映射CAM的定位能力和SAM的零样本迁移能力的框架。中国矿业大学作者汪路康导师史文中。

2025-03-20 20:30:55 268

原创 VScode的debug

如果在调试时，当前代码行包含一个函数调用，使用“step into”会进入该函数的内部，然后继续逐行调试。：如果你已经进入了一个函数内部，使用“step out”会运行完当前函数的所有剩余代码，然后将调试器控制权返回给调用该函数的位置。：当你在函数内部调试时，发现不需要再查看函数的其余部分，或者已经找到问题的原因，可以使用“step out”跳出函数。：当你不需要查看函数的内部细节，只想验证当前函数的返回值或执行效果时，使用“step over”。：运行当前函数中的剩余代码并返回到调用该函数的地方。

2025-03-19 15:10:21 1480

原创文章精读篇——用于遥感小样本语义分割的可学习Prompt

2. few-shot语义分割：现有的 FSS 方法主要关注新类别的分割，而忽略了基础类别的分割。在实际应用中，目标图像可能同时包含基础类别和新类别，因此需要模型能够同时分割这两类。：目标是在仅有少量标注样本的情况下，对图像中的新类别（novel classes）进行分割。1. 边界不连续是指在图像分割任务中，当图像被分割成多个小块（patches）进行独立预测时，块与块之间的边界区域可能会出现不一致或不连续的分割结果。：在引入新类别时，模型可能会忘记之前学习到的基础类别知识，导致基础类别的性能下降。

2025-02-23 22:42:12 684

空空如也

请问用官方文件申请JetBrain的学生版，收到邮件中的链接打不开怎么办