sofaraway13-CSDN博客

原创 AAAI 2026 | Relation-R1：不是只让模型看见物体，而是让它理解物体之间的关系

多模态大模型在图像理解上进步很快。它们可以识别图中的物体，也可以把文本里的对象和图像区域对应起来。比如看到一张图，模型能知道哪里是 child，哪里是 glass，哪里是 milk。尤其是在复杂场景中，一个动作往往不是简单的“主体—关系—客体”三元组，而是多个实体共同参与、并且每个实体承担不同语义角色。比如图里是一个孩子在喝牛奶。

2026-05-09 16:04:07 265

原创 CVPR 2026 | SafeGRPO：把多模态安全对齐，从结果优化推进到过程优化

除了“想得对”，SafeGRPO 还要求“做得对”。如果模型判断 combined unsafe，那它就应该明确拒绝；如果判断 combined safe，那它就应该正常回答，而不是乱拒绝。Rbehavior1ifscsc∧acac0otherwiseRbehavior⎩⎨⎧10ifscsc∧acacotherwisescs_csc是模型预测的 combined tagsc。

2026-04-19 17:27:24 278

原创 CVPR 2026 | Linking Perception, Confidence and Accuracy in MLLMs：让多模态大模型学会“看不清时别嘴硬”

为了奖励“合理的置信”，论文首先需要定义什么叫模型的 confidence。作者没有直接让模型口头输出“我有 80% 把握”，而是从生成过程中的 logits 出发，定义了整个回答序列的置信度。

2026-04-17 17:54:32 296

原创 ICLR 2026 | VTool-R1：让 VLM 学会“边看图边动图”地思考

我觉得这篇论文最有价值的地方有三个。

2026-04-17 15:19:21 233

原创 ICLR 2026 | Shuffle-R1：不是改奖励，而是改 RL 训练里“哪些 rollout 值得学”

并不是所有 pair 都拿去训练。作者会再做一次筛选，只保留 advantage 对比最强的那一部分 pair。论文里用一个保留比例α原始有N个 pair最终只保留前M = αN个 valid pair这样一来，模型最终更新时看到的就不再是“平均质量”的 rollout，而是从更大搜索空间里筛出来的高对比度轨迹对。Shuffle-R1 的价值，不在于重新发明 RL，而在于让 RL 训练真正把算力花在更值得学的 rollout 上。

2026-04-15 15:28:10 264

原创 ICLR 2025 | HiPRAG：不是让 Agent RAG 搜得更多，而是让它学会什么时候不该搜

以前很多工作主要优化最终答案。HiPRAG 则明确把“搜索决策质量”纳入了训练目标。

2026-04-10 22:03:46 271

原创 ICLR 2026 Oral | Q-RAG：当大家都在训练大模型学会搜索，它却选择训练检索器

不是训练 LLM 学会搜，而是训练检索器学会逐步找证据。把多步检索建模成强化学习问题训练的是 embedder，而不是 LLM在超长上下文和时间推理任务上表现出色，同时训练与推理成本都更友好如果你对 RAG、长上下文、检索增强推理感兴趣，这篇论文是非常值得读的。它不是那种“看完只会觉得更大更复杂”的工作，反而会让你重新思考一个问题：在 RAG 时代，我们真正该重点训练的，到底是生成模型，还是检索器？

2026-04-09 13:11:51 272

原创 ICLR 2025 | InstructRAG：当 RAG 学会“先去噪再回答”

InstructRAG 用模型自生成的 rationale，把传统 RAG 中隐式、黑盒的去噪过程，变成了可学习、可解释、可验证的显式过程。不需要额外人工标注，监督信号可由模型自合成；同时适用于 ICL 和微调两种场景；在高噪声、多文档和跨任务条件下，表现出更强的鲁棒性和泛化性。当检索结果本身不可靠时，模型到底有没有能力说明：自己为什么还能做出这个回答？可以，而且这种能力值得被单独训练。

2026-03-31 11:41:10 246

原创未能下载 VS Code 服务器(Failed to fetch)解决办法

这一步的目的，就是把卡住的远端 server 和锁状态整个清掉，相当于手动做一次官方说的 “Kill VS Code Server on Host”。是你这类“Installation already in progress”日志里直接提示可尝试的项；是为了先别让 Python/Pylance 自动安装，先验证主连接能不能完整进去。服务器（你服务器的名字）是官方建议的排障组合；

2026-03-30 14:20:22 226

原创 VS Code 远程开发中 Ctrl+点击无法跳转、Pylance 卡死、扩展反复重装的问题排查记录

Ctrl + 点击跳转失效，不要先怀疑鼠标，先怀疑语言服务有没有起来。

2026-03-28 17:11:46 279

原创 CE-CLIP中cmr-loss理解

自用。

2025-10-20 21:37:34 148

原创 vision grounding和 vision language

概念核心含义举例融合视觉和语言的整体领域图文检索、VQA、描述生成Vision-Language 的一个细分任务，旨在让语言在视觉中定位在图中框出 “a red car”

2025-10-13 10:57:08 818

原创分割任务里的mask

Mask = 每个像素的类别标签图它是图像分割任务中用来训练和评估模型的“正确答案”。

2025-10-12 20:37:59 667

原创【图像分割】DPT：Dense Prediction Transformer

是一种基于 Vision Transformer 的通用密集预测框架，用于图像分割、深度估计等任务。它将 ViT 的全局语义特征“重新投影”成空间特征图，实现像素级预测。

2025-10-12 15:27:51 955

原创 Fast AutoAugment

Fast AutoAugment = 自动找出最有效的数据增强方法 → 用特征分布判断 → 比原始 AutoAugment 快很多原理：增强后的图片要既和原图相似，又能增加多样性优点：快、省力、训练效果好如果你需要，我可以画一张流程图，把“原图 → 候选增强 → 比特征 → 选出最优增强策略 → 训练模型”直观展示，你一看就懂。你希望我画吗？

2025-10-10 16:38:59 260

原创 linear protocol（线性协议）

在看或的论文（比如 SimCLR、MoCo、BYOL），一般指：一种的方法，也叫。

2025-10-10 16:10:07 294

原创生成式网络和判别式网络

模型学习目标学的是什么生成式模型P(x,y)P(x, y)P(x,y) 或 P(x)P(x)P(x)学习“输入与标签的联合分布”或“输入分布”判别式模型学习“已知输入时的类别概率”解释：数据是如何产生的；给定输入，该属于哪个类别。模型类型优点缺点生成式模型- 能生成样本- 可建模复杂分布- 可做半监督学习- 训练难- 计算复杂- 泛化依赖分布建模质量判别式模型- 精度高- 收敛快- 更适合分类任务- 无法生成新数据- 不能解释数据结构生成式模型。

2025-10-10 16:00:53 987

原创 Pixels（像素）

Pixel（picture element）= 图像的最小单位。一张数字图像可以看作一个由许多小方格组成的网格，每个小方格都有自己的颜色值——那就是一个像素。特性说明最小单位构成图像的最小方格位置性每个像素有 (x, y) 坐标颜色值灰度图是单值，彩色图是多通道（RGB）离散性数字图像是离散像素矩阵的集合连续表示在神经网络中会被归一化为 0–1 浮点数输入模型像素（pixel）是数字图像的最小组成单位，每个像素携带颜色或亮度信息，所有像素组成了图像矩阵，是视觉模型的输入基础。

2025-10-10 15:52:07 549

原创 ImageNet数据集

ImageNet = 视觉界的“语言模型语料库”它用千万级标注图像，奠定了现代计算机视觉和深度学习的基础。

2025-10-09 15:46:49 902

原创快速了解DETR

DETR = 用 Transformer + 匈牙利匹配实现端到端目标检测的模型，不再需要锚框与 NMS。

2025-10-09 15:43:38 1217

原创快速了解ViT

ViT = “把图像分块当作词，送进 Transformer Encoder 做全局建模的视觉模型。

2025-10-06 11:18:38 566

原创快速了解BERT

BERT = 用 Transformer Encoder 双向建模上下文的预训练语言理解模型。

2025-10-05 15:02:53 676

原创 GLUE任务

提出时间：2018 年作用：一个NLP 综合测评平台，用一系列下游任务来测试模型的语言理解能力。类似于“语言理解的期末考试”。

2025-10-04 10:55:49 565

原创 08 线性回归 + 基础优化算法【动手学深度学习v2】

批量梯度下降（Batch GD）每次用所有训练数据计算梯度。梯度方向最准确，但计算开销大，内存占用高。随机梯度下降（Stochastic GD, SGD）每次只用一个样本计算梯度。更新快，但梯度方向抖动大，收敛不稳定。小批量随机梯度下降（Mini-batch SGD）每次用一小批样本（batch size 10~512 常见）计算梯度。在计算效率和收敛稳定性之间取得平衡。这是深度学习中最常用的方法。的作用在 PyTorch 中，所有计算默认都会被自动计算图（autograd）记录下来。

2025-09-28 22:32:14 1002 4

原创李宏毅主页

hylee主页课程mark：transformer等

2025-09-28 17:20:32 123

原创 BERT 总结

自用。

2025-09-28 15:31:05 829

原创 token概述

token = 模型理解的最小单位它可以是一个词、一个子词、甚至一个字符I love you词级别子词级别（BPE, WordPiece 等）字符级别。

2025-09-28 10:00:24 455

原创 NLP自然语言处理性能评估指标

常用指标：准确率（Accuracy）：预测正确的比例精确率（Precision）：预测为正的里面有多少是真的召回率（Recall）：真正的正样本被预测出来多少F1 值：Precision 和 Recall 的调和平均多分类时常用宏平均 (Macro-F1)、加权平均 (Weighted-F1)👉 例子：情感分析 “积极/消极”常用指标：Token-level Accuracy：逐个 token 是否预测正确Precision / Recall / F1：基于实体整体，而不是单个字/词NER 里最常见的是

2025-09-28 09:54:57 610

【机器学习速记】面试重点/期末考试pdf版

【机器学习速记】面试重点/期末考试word版

空空如也