- 博客(157)
- 问答 (1)
- 收藏
- 关注
原创 近期热门自动化科研项目概览【AutoResearch、AutoResearchClaw】
它会自己查文献(读代码)、想点子(改超参数或架构)、做实验(跑训练)、看结果(读日志),然后决定是保留这个改动还是放弃。│ │ - 给 AI 代理的指令、实验策略 │。│ └──────── 分析结果,决定保留/回滚 ←───┘ │。│ │ - 模型架构、优化器、超参数、训练循环 │。:基于实验数据生成统计严谨的分析报告,并做出智能研究决策,确定下一步方向。
2026-03-25 09:46:40
244
原创 2026acm mm投稿指南
ACM多媒体顶级会议(ACMMM 2026)聚焦多模态信息整合与交换,涵盖视频、音频、触觉、VR/AR等多媒体技术,特别欢迎AI、3D/元宇宙、视觉语言等跨学科研究。投稿截止为2026年4月1日,要求6-8页双栏论文,强调原创性和多模态特性。会议采用OpenReview双盲评审,设有作者申诉机制,严格禁止格式错误、抄袭等行为。重点应用领域包括医疗健康、教育和娱乐,鼓励学术界与工业界共同参与这一多媒体领域的重要学术盛会。
2026-03-11 18:44:36
3740
原创 LORA MEETS RIEMANNION: MUON OPTIMIZER FOR PARAMETRIZATION-INDEPENDENT LOW-RANK ADAPTERS论文解读
本文提出一种全黎曼几何框架的低秩适配(LoRA)方法,直接在固定秩流形上优化适配器,从根本上解决传统LoRA的参数化模糊问题。该方法包含三个关键创新:(1)将Muon优化器推广至固定秩流形,提出Riemannion优化器;(2)设计基于黎曼梯度的初始化策略;(3)开发高效实现方案。实验表明,该方法在收敛速度和任务性能上均显著优于标准LoRA及其改进版本,同时降低了结果方差。
2026-02-20 20:02:18
713
原创 THE UNSEEN BIAS: HOW NORM DISCREPANCY IN PRE-NORM MLLMS LEADS TO VISUAL INFORMA- TION LOSS论文解读
摘要 多模态大语言模型(MLLMs)通过融合视觉编码器与语言模型展现出色性能,但其预归一化(Pre-Norm)架构存在关键缺陷:视觉标记与文本标记的范数差异导致非对称更新动态。高范数视觉标记因表征惯性更新缓慢,阻碍跨模态融合。理论分析表明,这一现象普遍存在于主流MLLMs中。为解决此问题,我们提出在视觉投影器后插入层归一化(LayerNorm)以实现范数对齐。实验证明,该方法在LLaVA-1.5等模型上显著提升多模态任务性能,并意外改善纯文本任务表现,表明优化架构失衡可全面提升模型能力。 关键词:多模态大语
2026-02-12 17:17:18
1005
原创 polymarket开发文档-Conditional Token Frameworks+Proxy wallet
文章摘要 Polymarket 的预测市场基于 Gnosis 条件代币框架(CTF),使用二元结果(YES/NO)的 ERC-1155 代币模型。每个市场由 conditionId 标识,派生两个 collectionId(YES/NO),最终生成对应的 positionId(代币 ID)。用户可通过 splitPosition 存入 USDC.e 换取 YES+NO 代币,或通过 mergePositions 销毁代币赎回 USDC.e。拆分与合并需指定合法的 partition(如 [1,2]),确保无
2026-01-27 10:42:58
1216
原创 polymarket开发文档-Websocket+Gamma Structure+Subgraph+Resolution
Polymarket Websocket (WSS) 服务提供实时市场数据推送,包含两个核心通道:USER通道用于接收用户订单状态更新(如成交、取消等),需指定市场ID;MARKET通道用于获取全网市场行情(如价格变动),需指定资产ID。连接时需发送认证信息和订阅配置,支持动态调整订阅内容。接入流程包括:1) 通过以太坊私钥生成API Key;2) 建立WebSocket连接并发送订阅请求;3) 可随时通过subscribe/unsubscribe操作管理监听列表。该服务相比轮询HTTP接口显著提升数据实时
2026-01-23 16:34:53
1316
原创 polymarket开发文档-Central Limit Order Book
Polymarket禁止来自特定国家/地区的用户提交订单;若请求 IP 属于受限区域,CLOB 将直接拒绝订单;建议在前端或后端提前调用 Geoblock 接口,向用户提供友好提示(如“您所在地区暂不支持交易”),提升用户体验。该部分描述了一个用于获取指定交易 token 历史价格时间序列数据的公开 API 接口—— 获取某市场 token 的历史价格走势(时间 + 价格对)这是进行技术分析、回测、可视化或市场研究的基础数据源。
2026-01-18 11:50:12
1614
原创 polymarket开发文档-Developer Quickstart + Polymarket Builders Program
理解三层结构对正确使用 API 至关重要:使用 Gamma API 列出当前可交易的事件:必须使用 筛选仍在交易中的事件。4. 市场发现最佳实践▶ 体育赛事先通过 获取支持的联赛列表。再用 查询特定联赛(如 NBA)的事件。可进一步用 过滤为“单场比赛”(而非赛季期货)。注意:非自动化联赛(如 UFC、F1、高尔夫等)需直接通过 查询 。▶ 非体育话题(政治、经济、科技等)通过 获取所有分类标签。使用 (如 代表“Politics”)筛选相关事件。每个事件响应中
2026-01-05 18:37:05
2383
原创 CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models论文解读
带可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)是提升大型语言模型(Large Language Models, LLMs)推理能力的强效范式。然而,当前的RLVR方法在探索方面往往表现不佳,易导致模型过早收敛和熵崩溃。为应对这一挑战,我们提出了好奇心驱动探索(Curiosity-Driven Exploration, CDE)框架——该框架利用模型自身的内在好奇心来指导探索过程。
2025-11-07 17:54:32
945
原创 Visual-RFT: Visual Reinforcement Fine-Tuning论文解读
本文提出视觉强化微调(Visual-RFT)方法,将强化微调从语言模型扩展到多模态视觉任务。该方法通过任务特定的可验证奖励函数(如检测任务中的IoU奖励)引导模型优化,无需训练额外奖励模型。在细粒度分类、少样本检测等任务中,Visual-RFT仅需少量样本即显著超越监督微调,如在单样本细粒度分类中准确率提升24.3%。这种数据高效的强化学习方法为多模态模型微调提供了新范式。
2025-10-30 15:59:45
1155
原创 Reinforcement Learning for Reasoning in Large Language Models with One Training Example论文解读
单样本性能媲美全量数据:筛选出的单个样本(如π1\pi_1π1)用于1-shot RLVR时,能使Qwen2.5-Math-1.5B模型在MATH500上的性能从36.0%提升至73.6%,在6个数学推理基准上的平均性能从17.6%提升至35.7%,与包含该样本的1209个样本的DeepScaleR子集(DSR-sub)训练效果几乎持平;且这些有效单样本对基础模型而言难度较低,无需训练即可高概率解决。
2025-10-15 20:54:25
1226
原创 AD-DROP:Attribution-Driven Dropout for Robust Language Model Fine-Tuning
本文提出了一种归因驱动的dropout方法(AD-DROP)来缓解预训练语言模型微调时的过拟合问题。研究发现,自注意力位置对防止过拟合的重要性存在差异:丢弃低归因分数的位置会加速过拟合,而丢弃高归因分数位置则能有效减少过拟合。基于此,AD-DROP通过梯度归因识别高重要性注意力位置,并针对性丢弃这些位置,迫使模型学习更多样化的特征表示。该方法采用伪标签计算归因以避免训练-推理不一致,并设计了交叉调优策略来平衡信息保留与正则化效果。实验验证了该方法在多个NLP任务上的有效性,相比传统dropout能显著提升模
2025-09-26 22:42:21
1004
原创 on policy的几篇论文记录
近年来,被广泛用于微调大语言模型(LLMs),尤其是在需要复杂推理的任务中,如数学解题、编程、逻辑推理等。通过设计可验证的奖励信号(如答案是否正确),RL 能够引导模型发展出自我修正、回溯搜索等高级推理策略。然而,RL 微调的效果高度依赖于,即所谓的“一个合理的课程应当让模型先学习简单任务,逐步过渡到困难任务,从而提升学习效率和最终性能。因此,。
2025-09-21 18:31:06
1242
原创 AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges 论文解读
图 3展示了从“AI Agent 基础”到“Agentic AI 系统”的六步演化路径;图 2提供了一个五维对比心智图(架构、机制、范围、交互、自主性);整个方法论强调**“从概念到系统、从系统到应用、从应用到挑战与解决方案”**的闭环。AI Agents是自主软件实体,在限定数字环境中执行目标导向任务。能感知输入(文本/图像)能推理上下文能调用工具并执行动作与人类或系统交互,充当“代理”
2025-08-09 11:27:10
924
原创 Random Registers for Cross-Domain Few-Shot Learning论文解读
跨域少样本学习(CDFSL)的提出就是为了将源域(如包含大量自然图像的ImageNet)的通用知识迁移到仅有少量带标签样本的目标域(如医疗数据集),而源域和目标域之间存在巨大的域差距,这使得在源域训练的ViT难以迁移到目标域进行少样本学习。
2025-08-06 17:19:34
761
原创 INTERPRETING CLIP’S IMAGE REPRESENTATION VIA TEXT-BASED DECOMPOSITION论文解读
我们通过分析单个模型组件如何影响最终表示来研究CLIP图像编码器。我们将图像表示分解为各个图像块、模型层和注意力头的总和,并使用CLIP的文本表示来解释这些求和项。在解释注意力头时,我们通过自动寻找跨越其输出空间的文本表示来刻画每个头的角色,这揭示了许多头的特定属性角色(例如位置或形状)。接下来,在解释图像块时,我们发现了CLIP内部涌现的空间定位能力。最后,我们利用这一理解从CLIP中移除虚假特征,并创建了一个强大的零样本图像分割器。
2025-07-02 11:05:10
1090
原创 2026 AAAI 投稿要求
摘要:AAAI-26会议投稿关键信息 重要时间节点: 摘要提交截止:2025年7月25日(UTC-12) 全文提交截止:2025年8月1日(严格不可延期) 会议日期:2026年1月20-27日 核心投稿要求: 双盲评审,全文7页技术内容(美国信纸尺寸) 禁止使用LLM生成内容(允许润色) 需包含可复现性说明清单 关键词选择需突出核心贡献领域 注意事项: 补充材料须在8月4日前匿名提交 作者信息在全文提交后不可更改 违反匿名或抄袭政策将直接拒稿 论文评审分两阶段进行,9月8日发布第一阶段结果 (字数:149)
2025-06-15 17:13:47
24328
3
原创 MMA: Multi-Modal Adapter for Vision-Language Models论文解读
预训练视觉语言模型(VLMs)已成为各种下游任务中迁移学习的优秀基础模型。然而,针对少样本泛化任务对VLMs进行微调时,面临着“判别性—泛化性”困境,即需要保留通用知识,同时对任务特定知识进行微调。如何精确识别这两类表示仍然是一个挑战。在本文中,我们为VLMs提出了一种多模态适配器(MMA),以改善文本和视觉分支表示之间的对齐。MMA将不同分支的特征聚合到一个共享特征空间中,以便梯度可以跨分支传递。
2025-05-26 23:45:26
1429
原创 Vision as LoRA论文解读
我们提出了“视觉即低秩适应”(Vision as LoRA,VoRA),这是一种将大语言模型(LLM)转变为多模态大语言模型(MLLM)的全新范式。与普遍采用的依赖外部视觉模块进行视觉编码的MLLM架构不同,VoRA通过将特定于视觉的低秩适应(LoRA)层直接集成到LLM中,实现了视觉能力的内化。这种设计使得在推理过程中,新增的参数能够无缝地合并到LLM中,消除了结构复杂性,并将计算开销降至最低。此外,VoRA继承了LLM处理灵活上下文的能力,可以处理任意分辨率的输入。
2025-05-01 12:27:47
945
原创 字节 SAIL 论文解读
本文介绍了SAIL,这是一种基于单Transformer的统一多模态大语言模型(MLLM),它在单一架构中集成了原始像素编码和语言解码功能。与现有的依赖预训练视觉Transformer(ViT)的模块化MLLMs不同,SAIL无需单独的视觉编码器,呈现出更为简约的架构设计。。我们系统地比较了SAIL与模块化MLLMs在可扩展性、跨模态信息流模式和视觉表示能力等方面的特性。通过扩展训练数据和模型规模,SAIL取得了与模块化MLLMs相当的性能。
2025-04-22 13:10:37
1431
原创 PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
在大型视觉语言模型(LVLMs)中,图像作为携带丰富信息的输入源。正如"一图胜千言"这一成语所喻,当前LVLMs中表示单幅图像可能需要数百甚至数千个标记(tokens)。这种情况导致了显著的计算成本,且随着输入图像分辨率的提升呈二次方增长,从而严重影响了效率。以往的方法尝试在LVLMs的早期阶段之前或内部减少图像标记的数量,但这些策略不可避免地会导致关键图像信息的丢失。为应对这一挑战,我们通过实证研究发现:在浅层网络中,所有视觉标记对LVLMs都是必要的;而随着网络深度增加,标记冗余度逐步提升。
2025-04-10 17:54:00
924
原创 LLAVA-MINI: EFFICIENT IMAGE AND VIDEO LARGE MULTIMODAL MODELS WITH ONE VISION TOKEN 论文解读
像GPT-4o这样的实时大型多模态模型(LMMs)的出现,引发了人们对高效LMMs的浓厚兴趣。LMM框架通常会将视觉输入编码为视觉令牌(连续表示),并将其与文本指令整合到大语言模型(LLMs)的上下文环境中。在这种情况下,大规模的参数和大量的上下文令牌(主要是视觉令牌)会导致巨大的计算开销。以往提高LMM效率的工作总是聚焦于用较小的模型替换LLM主干,却忽略了令牌数量这一关键问题。在本文中,我们推出了LLaVA-Mini,这是一种高效的大型多模态模型,仅需极少的视觉令牌。
2025-04-01 10:29:33
1416
原创 Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration 论文解读
近期关于加速视觉语言模型的研究表明,即便对视觉信息进行高度压缩,模型仍能在各种视觉语言任务中保持强大的性能。在这项研究中,我们对语言模型中流行的早期视觉令牌剪枝加速方法进行了探究,发现该方法在众多任务中表现出色,并非源于其卓越的视觉信息压缩能力,而是。具体而言,我们揭示了这种加速方法存在的一个核心问题,即图像顶部的大多数令牌被剪掉了。然而,这个问题仅在诸如定位等一小部分任务的性能中有所体现。对于其他评估任务,即便采用有缺陷的剪枝策略,模型仍能保持较高的性能。
2025-03-24 16:24:21
1221
原创 MI-Zero: Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology论文解读
本文旨在通过构建一种新的方法。
2024-12-04 16:56:56
1303
原创 ViLa-MIL论文解读、代码分析
数字病理学是指将传统的玻璃病理切片进行数字化处理,并将其存储、管理和分析的过程。数字化病理切片称为全切片图像(WSI),具有高分辨率、层次化结构和巨大的数据量。
2024-12-01 09:23:54
1568
原创 Disease-informed Adaptation of Vision-Language Models 论文解读
本文背景聚焦于医学影像分析中深度学习模型适配的挑战,特别是数据稀缺和新疾病出现的情况下:医学影像领域的特殊性:预训练视觉-语言模型(Vision-Language Models, VLMs)的潜力和局限:现有方法的局限性:实际临床需求:本文提出了一种 疾病信息驱动的视觉-语言模型适配框架,由两个核心模块组成:疾病信息驱动的上下文提示 (Disease-informed Contextual Prompting, DiCoP) 和 疾病原型学习 (Disease Prototype Learning, DPL
2024-11-28 16:35:39
947
原创 Aligning Medical Images with General Knowledge from Large Language Models 论文解读
这篇论文的背景聚焦于将大型视觉-语言模型(Vision-Language Models, VLMs)应用于医学图像分析领域的挑战与潜力。这篇论文旨在解决将大型视觉-语言模型VLMs应用于医学图像分析领域时面临的以下核心问题:通过提出ViP框架,这篇论文试图在以下几个方面改进现状:ViP (Visual symptom-guided Prompt learning) 是一种新型的医学图像分析框架,通过整合预训练大型语言模型(LLM)和视觉-语言模型(VLM),实现跨领域知识迁移和医学图像分析的性能提升。其核心
2024-11-25 11:49:04
1589
原创 CLIP-Adapter: Better Vision-Language Models with Feature Adapters 论文解读
大规模对比视觉-语言预训练在视觉表示学习方面取得了显著进展。与传统的通过固定一组离散标签训练的视觉系统不同,(Radford et al., 2021) 引入了一种新范式,该范式在开放词汇环境中直接学习将图像与原始文本对齐。在下游任务中,通常需要精心设计的文本提示来进行零样本预测。为避免复杂的提示工程,(Zhou et al., 2021) 提出了上下文优化方法,利用少量样本学习连续向量作为任务特定的提示。在本文中,我们展示了除了提示调优之外,还有一条实现更优视觉-语言模型的替代路径。提示调优是针对文本输入
2024-11-23 22:41:16
2852
原创 Vision-Language Models for Vision Tasks: A Survey 论文解读
总体而言,VLM预训练通过不同的跨模态目标建模视觉-语言关联,例如图像-文本对比学习、掩码跨模态建模、图像到文本生成,以及图像-文本/区域-单词匹配。同时,还探索了各种单模态目标以充分挖掘各自模态的数据潜力,例如针对图像模态的掩码图像建模和针对文本模态的掩码语言建模。从全局层面来看,近期的VLM预训练专注于学习视觉-语言的全局关联,这对于图像级别的识别任务(如图像分类)非常有益。
2024-11-21 22:54:10
2565
原创 Swin-UMamba和SegMamba论文解读
分割后的 3D 图像,其中不同组织或结构被标记为不同的类别。医学图像分割,即将图像中的不同组织或器官进行区分和标记。: Swin-UMamba 的主要任务是进行。: 3D 医学图像分割。
2024-11-10 13:12:06
2816
原创 CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection论文解读和实验复现
CLIP-Driven Universal Model的框架结合了文本和图像信息,以提高医学图像分割和肿瘤检测的准确性和泛化能力。下载好模型权重和数据集,并放置在对应的文件夹下,再运行validation.py即可。我选用的是MSD的task 09 Spleen。同时,获得DSC分数。
2024-11-05 21:01:15
1296
1
原创 A Survey on Multimodal Large Language Models论文解读
指令:指任务的描述。指令调整目的:教导模型更好地理解用户指令并完成要求任务,从而使模型能够通过遵循新指令来泛化到未见任务,提高零样本性能。与相关学习范式比较:与监督式微调和提示工程相比,指令调整学习如何泛化到未见任务,而不是拟合特定任务。对齐调整通常用于需要模型与特定人类偏好对齐的场景,例如减少幻觉(hallucinations)的响应。目前,强化学习与人类反馈(RLHF)和直接偏好优化(DPO)是对齐调整的两种主要技术。
2024-10-13 16:43:51
2227
1
原创 Defining Smart Contract Defects on Ethereum论文解读
智能合约的不可变性:智能合约一旦部署到区块链就无法修改,因此检测和修复缺陷至关重要,以确保合约的健壮性。智能合约与传统软件的差异:与传统的软件(如 Android 应用)相比,智能合约具有独特的特性,例如 gas 系统、去中心化等,这可能导致智能合约包含一些特定的缺陷。
2024-09-27 16:17:22
1807
6
原创 Definition and Detection of Defects in NFT Smart Contracts论文解读、复现
主要组件:负责接收和处理输入的Solidity源代码。用于检测合约中的关键特征,如映射存储、删除操作和外部调用。基于符号执行构建控制流图(CFG),用于分析合约的执行路径。根据预定义的规则和模式识别和报告检测到的缺陷。用户输入Solidity源代码,该代码被编译成EVM字节码和抽象语法树(AST)以供进一步分析。Inputter组件从AST中提取源映射信息,并使用槽映射来存储变量与它们槽ID之间的映射关系。
2024-09-11 20:01:01
1252
原创 中山大学网络空间安全学院夏令营经历
入营了大概60人吧确认参营55+实际到场473个候补,44个优营我处在优营较末尾处,应该是不会来中大了因为中大是根据排名发学硕专硕的,并且中大的专硕和学硕只有学费上有差别(即毕业要求和年限都是一样的)。所以中大的专硕没有吸引人的点,而且根据往年的情况,中大专硕鸽子非常多(印证了它的专硕并不吸引人)。
2024-07-20 13:19:29
2093
3
原创 西安交通大学网络空间安全学院夏令营考核、经历(读论文、复现代码、代码添加模块)
其中:第1篇文献boundaryattack第5篇文献triangleattack补充各种对抗性标准:误分类:扰动后的样本被分类为与原始样本不同的类别。有目标误分类:扰动后的样本被分类为目标类别。顶 k 误分类:扰动后的样本的预测类别不在原始样本的预测类别的前 k 个中。某些置信度分数的阈值。
2024-07-09 08:07:05
1286
1
原创 Triangle Attack: A Query-efficient Decision-based Adversarial Attack (论文解读、代码复现)
深度神经网络的进展: 尽管深度神经网络在各个领域取得了突破性的进展,但其对对抗样本的脆弱性仍然存在。现有研究的不足: 尽管最近的研究将查询次数从数百万减少到数千次,但仍然不足以满足大多数实际应用的需求。现有决策型攻击方法的局限性: 大多数现有的决策型攻击方法在每个迭代步骤都将对抗样本限制在上,并通常采用不同的梯度估计方法进行攻击。
2024-06-29 23:47:02
1222
空空如也
来自诺艾尔骑士团的考核
2021-09-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅