call me by ur name-CSDN博客

原创 MMA: Multi-Modal Adapter for Vision-Language Models论文解读

预训练视觉语言模型（VLMs）已成为各种下游任务中迁移学习的优秀基础模型。然而，针对少样本泛化任务对VLMs进行微调时，面临着“判别性—泛化性”困境，即需要保留通用知识，同时对任务特定知识进行微调。如何精确识别这两类表示仍然是一个挑战。在本文中，我们为VLMs提出了一种多模态适配器（MMA），以改善文本和视觉分支表示之间的对齐。MMA将不同分支的特征聚合到一个共享特征空间中，以便梯度可以跨分支传递。

2025-05-26 23:45:26 928

原创 Vision as LoRA论文解读

我们提出了“视觉即低秩适应”（Vision as LoRA，VoRA），这是一种将大语言模型（LLM）转变为多模态大语言模型（MLLM）的全新范式。与普遍采用的依赖外部视觉模块进行视觉编码的MLLM架构不同，VoRA通过将特定于视觉的低秩适应（LoRA）层直接集成到LLM中，实现了视觉能力的内化。这种设计使得在推理过程中，新增的参数能够无缝地合并到LLM中，消除了结构复杂性，并将计算开销降至最低。此外，VoRA继承了LLM处理灵活上下文的能力，可以处理任意分辨率的输入。

2025-05-01 12:27:47 716

原创字节 SAIL 论文解读

本文介绍了SAIL，这是一种基于单Transformer的统一多模态大语言模型（MLLM），它在单一架构中集成了原始像素编码和语言解码功能。与现有的依赖预训练视觉Transformer（ViT）的模块化MLLMs不同，SAIL无需单独的视觉编码器，呈现出更为简约的架构设计。。我们系统地比较了SAIL与模块化MLLMs在可扩展性、跨模态信息流模式和视觉表示能力等方面的特性。通过扩展训练数据和模型规模，SAIL取得了与模块化MLLMs相当的性能。

2025-04-22 13:10:37 1010

原创 PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

在大型视觉语言模型（LVLMs）中，图像作为携带丰富信息的输入源。正如"一图胜千言"这一成语所喻，当前LVLMs中表示单幅图像可能需要数百甚至数千个标记（tokens）。这种情况导致了显著的计算成本，且随着输入图像分辨率的提升呈二次方增长，从而严重影响了效率。以往的方法尝试在LVLMs的早期阶段之前或内部减少图像标记的数量，但这些策略不可避免地会导致关键图像信息的丢失。为应对这一挑战，我们通过实证研究发现：在浅层网络中，所有视觉标记对LVLMs都是必要的；而随着网络深度增加，标记冗余度逐步提升。

2025-04-10 17:54:00 645

原创 LLAVA-MINI: EFFICIENT IMAGE AND VIDEO LARGE MULTIMODAL MODELS WITH ONE VISION TOKEN 论文解读

像GPT-4o这样的实时大型多模态模型（LMMs）的出现，引发了人们对高效LMMs的浓厚兴趣。LMM框架通常会将视觉输入编码为视觉令牌（连续表示），并将其与文本指令整合到大语言模型（LLMs）的上下文环境中。在这种情况下，大规模的参数和大量的上下文令牌（主要是视觉令牌）会导致巨大的计算开销。以往提高LMM效率的工作总是聚焦于用较小的模型替换LLM主干，却忽略了令牌数量这一关键问题。在本文中，我们推出了LLaVA-Mini，这是一种高效的大型多模态模型，仅需极少的视觉令牌。

2025-04-01 10:29:33 1073

原创 Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration 论文解读

近期关于加速视觉语言模型的研究表明，即便对视觉信息进行高度压缩，模型仍能在各种视觉语言任务中保持强大的性能。在这项研究中，我们对语言模型中流行的早期视觉令牌剪枝加速方法进行了探究，发现该方法在众多任务中表现出色，并非源于其卓越的视觉信息压缩能力，而是。具体而言，我们揭示了这种加速方法存在的一个核心问题，即图像顶部的大多数令牌被剪掉了。然而，这个问题仅在诸如定位等一小部分任务的性能中有所体现。对于其他评估任务，即便采用有缺陷的剪枝策略，模型仍能保持较高的性能。

2025-03-24 16:24:21 940

原创 2025 MICCAI 投稿要求

为了促进平等和多样性，MICCAI组织者鼓励女性研究人员和其他代表性不足的群体提交论文。

2025-01-22 18:04:24 7875

原创 VLM--CLIP作分类任务的损失函数

这个是clip作对比学习的损失函数各个博客上都有详细介绍了，我这里就不赘述。

2024-12-22 16:54:08 1967

原创 MI-Zero: Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology论文解读

本文旨在通过构建一种新的方法。

2024-12-04 16:56:56 1042

原创 ViLa-MIL论文解读、代码分析

数字病理学是指将传统的玻璃病理切片进行数字化处理，并将其存储、管理和分析的过程。数字化病理切片称为全切片图像（WSI），具有高分辨率、层次化结构和巨大的数据量。

2024-12-01 09:23:54 1213

原创 Disease-informed Adaptation of Vision-Language Models 论文解读

本文背景聚焦于医学影像分析中深度学习模型适配的挑战，特别是数据稀缺和新疾病出现的情况下：医学影像领域的特殊性：预训练视觉-语言模型（Vision-Language Models, VLMs）的潜力和局限：现有方法的局限性：实际临床需求：本文提出了一种疾病信息驱动的视觉-语言模型适配框架，由两个核心模块组成：疾病信息驱动的上下文提示 (Disease-informed Contextual Prompting, DiCoP) 和疾病原型学习 (Disease Prototype Learning, DPL

2024-11-28 16:35:39 818

原创 Aligning Medical Images with General Knowledge from Large Language Models 论文解读

这篇论文的背景聚焦于将大型视觉-语言模型（Vision-Language Models, VLMs）应用于医学图像分析领域的挑战与潜力。这篇论文旨在解决将大型视觉-语言模型VLMs应用于医学图像分析领域时面临的以下核心问题：通过提出ViP框架，这篇论文试图在以下几个方面改进现状：ViP (Visual symptom-guided Prompt learning) 是一种新型的医学图像分析框架，通过整合预训练大型语言模型（LLM）和视觉-语言模型（VLM），实现跨领域知识迁移和医学图像分析的性能提升。其核心

2024-11-25 11:49:04 1356

原创 CLIP-Adapter: Better Vision-Language Models with Feature Adapters 论文解读

大规模对比视觉-语言预训练在视觉表示学习方面取得了显著进展。与传统的通过固定一组离散标签训练的视觉系统不同，(Radford et al., 2021) 引入了一种新范式，该范式在开放词汇环境中直接学习将图像与原始文本对齐。在下游任务中，通常需要精心设计的文本提示来进行零样本预测。为避免复杂的提示工程，(Zhou et al., 2021) 提出了上下文优化方法，利用少量样本学习连续向量作为任务特定的提示。在本文中，我们展示了除了提示调优之外，还有一条实现更优视觉-语言模型的替代路径。提示调优是针对文本输入

2024-11-23 22:41:16 2096

原创 Vision-Language Models for Vision Tasks: A Survey 论文解读

总体而言，VLM预训练通过不同的跨模态目标建模视觉-语言关联，例如图像-文本对比学习、掩码跨模态建模、图像到文本生成，以及图像-文本/区域-单词匹配。同时，还探索了各种单模态目标以充分挖掘各自模态的数据潜力，例如针对图像模态的掩码图像建模和针对文本模态的掩码语言建模。从全局层面来看，近期的VLM预训练专注于学习视觉-语言的全局关联，这对于图像级别的识别任务（如图像分类）非常有益。

2024-11-21 22:54:10 1887

原创 Swin-UMamba和SegMamba论文解读

分割后的 3D 图像，其中不同组织或结构被标记为不同的类别。医学图像分割，即将图像中的不同组织或器官进行区分和标记。: Swin-UMamba 的主要任务是进行。： 3D 医学图像分割。

2024-11-10 13:12:06 1824

原创 CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection论文解读和实验复现

CLIP-Driven Universal Model的框架结合了文本和图像信息，以提高医学图像分割和肿瘤检测的准确性和泛化能力。下载好模型权重和数据集，并放置在对应的文件夹下，再运行validation.py即可。我选用的是MSD的task 09 Spleen。同时，获得DSC分数。

2024-11-05 21:01:15 1068 1

原创 A Survey on Multimodal Large Language Models论文解读

指令：指任务的描述。指令调整目的：教导模型更好地理解用户指令并完成要求任务，从而使模型能够通过遵循新指令来泛化到未见任务，提高零样本性能。与相关学习范式比较：与监督式微调和提示工程相比，指令调整学习如何泛化到未见任务，而不是拟合特定任务。对齐调整通常用于需要模型与特定人类偏好对齐的场景，例如减少幻觉（hallucinations）的响应。目前，强化学习与人类反馈（RLHF）和直接偏好优化（DPO）是对齐调整的两种主要技术。

2024-10-13 16:43:51 1728 1

原创 Defining Smart Contract Defects on Ethereum论文解读

智能合约的不可变性：智能合约一旦部署到区块链就无法修改，因此检测和修复缺陷至关重要，以确保合约的健壮性。智能合约与传统软件的差异：与传统的软件（如 Android 应用）相比，智能合约具有独特的特性，例如 gas 系统、去中心化等，这可能导致智能合约包含一些特定的缺陷。

2024-09-27 16:17:22 1523 6

原创 Definition and Detection of Defects in NFT Smart Contracts论文解读、复现

主要组件：负责接收和处理输入的Solidity源代码。用于检测合约中的关键特征，如映射存储、删除操作和外部调用。基于符号执行构建控制流图（CFG），用于分析合约的执行路径。根据预定义的规则和模式识别和报告检测到的缺陷。用户输入Solidity源代码，该代码被编译成EVM字节码和抽象语法树（AST）以供进一步分析。Inputter组件从AST中提取源映射信息，并使用槽映射来存储变量与它们槽ID之间的映射关系。

2024-09-11 20:01:01 1037

原创中山大学网络空间安全学院夏令营经历

入营了大概60人吧确认参营55+实际到场473个候补，44个优营我处在优营较末尾处，应该是不会来中大了因为中大是根据排名发学硕专硕的，并且中大的专硕和学硕只有学费上有差别（即毕业要求和年限都是一样的）。所以中大的专硕没有吸引人的点，而且根据往年的情况，中大专硕鸽子非常多（印证了它的专硕并不吸引人）。

2024-07-20 13:19:29 1350 2

原创西安交通大学网络空间安全学院夏令营考核、经历（读论文、复现代码、代码添加模块）

其中：第1篇文献boundaryattack第5篇文献triangleattack补充各种对抗性标准：误分类：扰动后的样本被分类为与原始样本不同的类别。有目标误分类：扰动后的样本被分类为目标类别。顶 k 误分类：扰动后的样本的预测类别不在原始样本的预测类别的前 k 个中。某些置信度分数的阈值。

2024-07-09 08:07:05 1138 1

原创 Triangle Attack: A Query-efficient Decision-based Adversarial Attack （论文解读、代码复现）

深度神经网络的进展：尽管深度神经网络在各个领域取得了突破性的进展，但其对对抗样本的脆弱性仍然存在。现有研究的不足：尽管最近的研究将查询次数从数百万减少到数千次，但仍然不足以满足大多数实际应用的需求。现有决策型攻击方法的局限性：大多数现有的决策型攻击方法在每个迭代步骤都将对抗样本限制在上，并通常采用不同的梯度估计方法进行攻击。

2024-06-29 23:47:02 1056

原创 Rethinking White-Box Watermarks on Deep Learning Models under Neural Structural Obfuscation复现，套磁老师考核

复旦老师夏令营考核。向前生成并注入虚拟神经元。这个过程考虑了注入的虚拟神经元的隐蔽性。进一步伪装（Further Camouflage）：最后一步是通过其他DNN上的不变变换来进一步伪装注入的虚拟神经元，包括在规模、位置和形状上，目的是将原始模型转换为与原始自身几乎没有结构相似性的混淆模型，同时保持模型的正常效用。

2024-05-29 22:07:51 1486 1

原创 2023暑研经历总结

课题三国家重点研发计划连续目标跟踪时间：2023.7.6——2023.8.17。

2024-05-05 13:10:52 760 2

原创《Adversarial Attacks and Defenses in Deep Learning: From a Perspective of Cybersecurity》论文解读

本文首先强调了深度学习技术在多种任务中的广泛应用和取得的显著成就，尤其是深度学习在图像识别、语音识别、自然语言处理等领域的关键作用。然而，作者们也指出了深度学习模型的一个主要问题：对抗性样本的存在使得深度学习模型的安全性和稳定性受到威胁。对抗性样本是指通过在原始数据中添加精心设计的微小扰动，导致深度学习模型以高概率给出错误预测的样本。这些扰动对于人类来说通常是难以察觉的，但对模型的预测结果却有显著的影响。这种现象在自动驾驶车辆、安全监控等关键领域尤为令人担忧，因为模型的失败可能导致严重的安全事故。

2024-05-03 18:12:34 917

原创《A Review of Adversarial Attack and Defense for Classification Methods》论文解读

对抗性攻击的概念：对抗性攻击是指在已知的自然样本和受害模型的基础上，通过精心设计的小扰动来生成对抗性示例的过程。对抗性示例的重要性：作者提到，对抗性示例的存在对于在安全敏感领域部署DNNs或相关方法构成了严重的问题，如自动驾驶汽车、飞行控制系统和医疗系统等。泛化与对抗性攻击：尽管DNNs在训练集上表现出色，但它们容易受到对抗性攻击的影响，这些攻击通过向输入添加精心设计的扰动来误导模型。攻击的优化问题：对抗性攻击通常被表述为一个优化问题，目标是在保持输入外观不变的同时最大化分类器的损失函数。

2024-05-02 18:09:17 707

原创 Query-Efficient Black-Box Adversarial Attack With Customized Iteration and Sampling(论文解读，代码复现)

黑盒攻击无法像白盒攻击一样直接计算目标模型的梯度，因此不太可能通过gradient-based or optimization-based攻击来得到拥有小噪声强度的对抗样本对于黑盒攻击，只能通过查询目标模型，得到输出（往往是硬标签），这种查询成本高。在有限查询的条件下，要压缩已经得到的对抗样本的噪声难度大而现有的黑盒攻击存在问题modeltransfer-based攻击在替代模型上往往过拟合（对抗样本（包含其步长、迭代次数）只在替代模型上有效），目标模型无法错误分类此对抗样本。

2024-04-25 16:01:44 1281

原创 Efficient Decision-based Black-box Patch Attacks on Video Recognition（背景、本文要解决的问题、创新点、方案和实验、代码复现）

EfficientDecision−basedBlack−boxPatchAttacksonVideoRecognitionpatch 包括 texture, position, shape。

2024-03-20 12:46:06 1207

原创省创暨srdp项目复盘

项目时间：2022.7.13——2023.？？？

2023-10-12 13:16:34 459

原创 2023计算机组成原理【5-7】

1．指令周期的概念，与时钟周期、机器周期的区别。数据通路的含义(包括组合逻辑元件、存储元件)，要求理解不是记下来。组合逻辑（操作）元件和存储（状态）元件组成。CPU由数据通路和控制部件两大部分组成。通常将指令执行过程中数据所经过的路径，包括路径上的部件称为数据通路。通常把数据通路中专门进行数据运算的部件称为执行部件或功能部件。程序计数器(PC)和指令寄存器(IR)等寄存器的功能与作用。程序计数器(PC)，又称指令计数器，用来存放指令的地址。指令寄存器(IR)，用以存放现行指令。

2023-06-25 21:05:55 1636

原创 2023计算机组成原理复习【1-4】

，最后结果低4位不包含原来乘数的位数4．浮点数的加减法、

2023-06-21 20:30:33 1318

原创数据结构与算法·第10章【内部排序】

排序问题可以分为内部排序和外部排序。若整个排序过程不需要访问外存便能完成，则称此类排序问题为内部排序；反之，若参加排序的记录数量很大，整个序列的排序过程不可能在内存中完成，则称此类排序问题为外部排序。在内部排序中，若对于两个相等的元素Ki和Kjij，在排序前的序列中Ri领先于Rj（即ij），排序后的序列中 Ri 仍领先于 Rj，则称所用的排序方法是稳定的；反之，若可能使排序后的序列中Rj领先于Ri，则称所用的排序方法是非稳定的。

2023-06-19 11:17:28 1288

原创数据结构与算法·第9章【查找】

如果是，则需要进行结点的合并操作，具体而言，将该结点与其相邻的兄弟结点以及父结点中的关键字进行合并，直到满足B-树的要求为止。特别的，如果需要进行结点的合并操作时，根节点只有一个子节点，则可以将该子节点作为新的根结点。当要删除的结点既有左子树，也有右子树时，可以选择用其前驱或后继结点代替该结点的位置，然后将被选中的前驱或后继结点从原来的位置移动到要删除的结点位置上，并删除原结点。当要删除的结点只有左子树或者只有右子树时，让其子树代替它的位置，即将子树与其父节点相连，然后释放被删除结点的内存空间。

2023-06-10 15:42:03 1126

原创数据结构与算法·第6章【树】

我们使用变量 pre 来保存当前遍历过的最后一个节点，在循环中不断更新，直到遍历到最后一个节点。最后，我们将最后一个节点的右子树指针指向头结点，并将头结点的右指针指向最后一个节点。需要注意的是，在整个过程中，我们只需要通过修改线索来实现中序遍历，无需创建新的节点或者修改原有节点的结构。这就是中序线索二叉树的优点，它可以大大提高中序遍历的效率，减少程序的内存占用。

2023-06-07 19:44:22 821

原创数据结构·第3章【栈和队列】

栈（Stack）是限定仅在表的一端进行插入或删除操作的线性表。通常称插入删除的一端为栈顶（top），另一端称为栈底（bottom）。

2023-05-29 17:22:58 976

原创数据结构与算法·第2章【线性表】

其中，listsize是容量SqList总共能装多少个元素，length是有多少个元素// 数据域 struct LNode * next;// 指针域 } LNode , * LinkList;// 定义一个头结点指针 LinkList L = head;// 定义一个链表L并将头结点指针赋给它// 数据域 struct DuLNode * prior;// 指向前驱的指针域 struct DuLNode * next;

2023-05-27 22:45:28 859

原创 2023蓝桥杯真题c++省A

比赛的时候，脑袋要清晰一点，当时写幸运数这道题都感觉没在用脑子思考，花了特别多时间。

2023-05-11 13:57:54 6371 3

原创 Kruskal算法、Kruskal重构树、LCA算法

KruskalKruskalKruskal 算法是一种求解最小生成树的贪心算法。它的基本思想是从图中的边集中依次选取边，使得选出的边不会构成回路，并且满足边权和最小。具体实现过程如下：将原图中的所有边按照边权从小到大排序。依次选取排序后的边，如果这条边的两个端点不在同一个连通块中，则加入该边，将它们之间的连通块合并成一个新的连通块，并把该边加入最小生成树的边集中。重复上述步骤，直至加入 n−1n−1n−1 条边（其中 nnn 表示原图的节点数），此时得到的边集即为原图的最小生成树。KruskalKruska

2023-05-09 19:23:12 1132

原创云服务器上已经部署完flask项目，但仍然无法访问的解决

我在服务器上运行了程序但是我通过公网ip+端口号，仍然访问不了。并且通过另一个远程连接，测试，显示并且在flask代码中写。

2023-04-23 11:03:33 1392 1

原创关于Python程序在终端出现could not import “app“的问题

我在pycharm写好了flask程序，并且在pycharm中可以运行。接下来，我把flask部署到服务器上，在云服务器上运行时，出现"could not import app"在网上找了很多办法，都不能直接解决我的问题。这个问题花了我相当多的时间app.py。

2023-04-22 16:54:07 1342

空空如也

来自诺艾尔骑士团的考核