- 博客(91)
- 收藏
- 关注
原创 CVPR 2026 | Linking Perception, Confidence and Accuracy in MLLMs:让多模态大模型学会“看不清时别嘴硬”
为了奖励“合理的置信”,论文首先需要定义什么叫模型的 confidence。作者没有直接让模型口头输出“我有 80% 把握”,而是从生成过程中的 logits 出发,定义了整个回答序列的置信度。
2026-04-17 17:54:32
12
原创 ICLR 2026 | Shuffle-R1:不是改奖励,而是改 RL 训练里“哪些 rollout 值得学”
并不是所有 pair 都拿去训练。作者会再做一次筛选,只保留 advantage 对比最强的那一部分 pair。论文里用一个保留比例α原始有N个 pair最终只保留前M = αN个 valid pair这样一来,模型最终更新时看到的就不再是“平均质量”的 rollout,而是从更大搜索空间里筛出来的高对比度轨迹对。Shuffle-R1 的价值,不在于重新发明 RL,而在于让 RL 训练真正把算力花在更值得学的 rollout 上。
2026-04-15 15:28:10
221
原创 ICLR 2025 | HiPRAG:不是让 Agent RAG 搜得更多,而是让它学会什么时候不该搜
以前很多工作主要优化最终答案。HiPRAG 则明确把“搜索决策质量”纳入了训练目标。
2026-04-10 22:03:46
257
原创 ICLR 2026 Oral | Q-RAG:当大家都在训练大模型学会搜索,它却选择训练检索器
不是训练 LLM 学会搜,而是训练检索器学会逐步找证据。把多步检索建模成强化学习问题训练的是 embedder,而不是 LLM在超长上下文和时间推理任务上表现出色,同时训练与推理成本都更友好如果你对 RAG、长上下文、检索增强推理感兴趣,这篇论文是非常值得读的。它不是那种“看完只会觉得更大更复杂”的工作,反而会让你重新思考一个问题:在 RAG 时代,我们真正该重点训练的,到底是生成模型,还是检索器?
2026-04-09 13:11:51
230
原创 ICLR 2025 | InstructRAG:当 RAG 学会“先去噪再回答”
InstructRAG 用模型自生成的 rationale,把传统 RAG 中隐式、黑盒的去噪过程,变成了可学习、可解释、可验证的显式过程。不需要额外人工标注,监督信号可由模型自合成;同时适用于 ICL 和微调两种场景;在高噪声、多文档和跨任务条件下,表现出更强的鲁棒性和泛化性。当检索结果本身不可靠时,模型到底有没有能力说明:自己为什么还能做出这个回答?可以,而且这种能力值得被单独训练。
2026-03-31 11:41:10
224
原创 未能下载 VS Code 服务器(Failed to fetch)解决办法
这一步的目的,就是把卡住的远端 server 和锁状态整个清掉,相当于手动做一次官方说的 “Kill VS Code Server on Host”。是你这类“Installation already in progress”日志里直接提示可尝试的项;是为了先别让 Python/Pylance 自动安装,先验证主连接能不能完整进去。服务器(你服务器的名字)是官方建议的排障组合;
2026-03-30 14:20:22
90
原创 VS Code 远程开发中 Ctrl+点击无法跳转、Pylance 卡死、扩展反复重装的问题排查记录
Ctrl + 点击跳转失效,不要先怀疑鼠标,先怀疑语言服务有没有起来。
2026-03-28 17:11:46
253
原创 vision grounding和 vision language
概念核心含义举例融合视觉和语言的整体领域图文检索、VQA、描述生成Vision-Language 的一个细分任务,旨在让语言在视觉中定位在图中框出 “a red car”
2025-10-13 10:57:08
807
原创 【图像分割】DPT:Dense Prediction Transformer
是一种基于 Vision Transformer 的通用密集预测框架,用于图像分割、深度估计等任务。它将 ViT 的全局语义特征“重新投影”成空间特征图,实现像素级预测。
2025-10-12 15:27:51
914
原创 Fast AutoAugment
Fast AutoAugment = 自动找出最有效的数据增强方法 → 用特征分布判断 → 比原始 AutoAugment 快很多原理:增强后的图片要既和原图相似,又能增加多样性优点:快、省力、训练效果好如果你需要,我可以画一张流程图,把“原图 → 候选增强 → 比特征 → 选出最优增强策略 → 训练模型”直观展示,你一看就懂。你希望我画吗?
2025-10-10 16:38:59
256
原创 生成式网络和判别式网络
模型学习目标学的是什么生成式模型P(x,y)P(x, y)P(x,y) 或 P(x)P(x)P(x)学习“输入与标签的联合分布”或“输入分布”判别式模型学习“已知输入时的类别概率”解释:数据是如何产生的;给定输入,该属于哪个类别。模型类型优点缺点生成式模型- 能生成样本- 可建模复杂分布- 可做半监督学习- 训练难- 计算复杂- 泛化依赖分布建模质量判别式模型- 精度高- 收敛快- 更适合分类任务- 无法生成新数据- 不能解释数据结构生成式模型。
2025-10-10 16:00:53
978
原创 Pixels(像素)
Pixel(picture element)= 图像的最小单位。一张数字图像可以看作一个由许多小方格组成的网格,每个小方格都有自己的颜色值——那就是一个像素。特性说明最小单位构成图像的最小方格位置性每个像素有 (x, y) 坐标颜色值灰度图是单值,彩色图是多通道(RGB)离散性数字图像是离散像素矩阵的集合连续表示在神经网络中会被归一化为 0–1 浮点数输入模型像素(pixel)是数字图像的最小组成单位,每个像素携带颜色或亮度信息,所有像素组成了图像矩阵,是视觉模型的输入基础。
2025-10-10 15:52:07
533
原创 08 线性回归 + 基础优化算法【动手学深度学习v2】
批量梯度下降(Batch GD)每次用所有训练数据计算梯度。梯度方向最准确,但计算开销大,内存占用高。随机梯度下降(Stochastic GD, SGD)每次只用一个样本计算梯度。更新快,但梯度方向抖动大,收敛不稳定。小批量随机梯度下降(Mini-batch SGD)每次用一小批样本(batch size 10~512 常见)计算梯度。在计算效率和收敛稳定性之间取得平衡。这是深度学习中最常用的方法。的作用在 PyTorch 中,所有计算默认都会被自动计算图(autograd)记录下来。
2025-09-28 22:32:14
998
4
原创 token概述
token = 模型理解的最小单位它可以是一个词、一个子词、甚至一个字符I love you词级别子词级别(BPE, WordPiece 等)字符级别。
2025-09-28 10:00:24
431
原创 NLP自然语言处理性能评估指标
常用指标:准确率(Accuracy):预测正确的比例精确率(Precision):预测为正的里面有多少是真的召回率(Recall):真正的正样本被预测出来多少F1 值:Precision 和 Recall 的调和平均多分类时常用 宏平均 (Macro-F1)、加权平均 (Weighted-F1)👉 例子:情感分析 “积极/消极”常用指标:Token-level Accuracy:逐个 token 是否预测正确Precision / Recall / F1:基于实体整体,而不是单个字/词NER 里最常见的是
2025-09-28 09:54:57
600
原创 Transformer 中的并行和串行
Transformer 的并行优势:主要体现在训练阶段,大幅快于 RNN。Transformer 的自回归限制:在推理阶段,仍然是串行生成。所以实际应用中(比如 GPT 生成文本)会比较慢,需要一些技巧(比如缓存 KV、并行解码、采样优化)来加速。
2025-09-27 23:15:58
325
原创 transformer中区分 自注意力 和 自回归
概念定义应用每个位置和所有位置交互(Q,K,V 同源)Encoder、Decoder(无掩码时)预测时只能用历史上下文GPT、翻译 DecoderSelf-Attention + Mask(屏蔽未来)Decoder 中实现自回归👉 所以,Self-Attention 是一种信息交互机制,自回归是一种预测建模方式,两者不一样,但在 Decoder 里结合起来用了。
2025-09-27 23:12:18
660
原创 Transformer例子理解
Encoder:把整句中文编码成上下文向量(全局信息)。Decoder:自回归生成英文,一次预测一个词:Masked Self-Attention → 只能看过去的已生成词Cross-Attention → 利用 Encoder 提供的中文语义信息一直生成,直到遇到<EOS>。
2025-09-26 23:30:53
583
原创 Transformer
Attention(让每个词和全局交互)Multi-Head(学不同语义关系)位置编码(补充顺序信息)残差 + LayerNorm(稳定训练)堆叠层数(提升表达能力)
2025-09-26 22:44:45
1385
原创 CLIP多模态模型
CLIP()是 OpenAI 提出的一个多模态模型,能同时理解图片和文本。它的核心思想是:通过大量的图文对(image-text pairs)训练,让模型学会把“描述同一事物的图像和文本”映射到同一个语义空间里。
2025-09-22 22:51:07
361
原创 05 线性代数【动手学深度学习v2】
保留原来的维度(但大小变为 1),方便与原张量进行广播或后续计算。,是两个同型矩阵的对应元素相乘,记作 (数学符号⊙)。(Hadamard product),又叫。如果要做高维 batch 的矩阵乘法,要用。和普通矩阵乘法(矩阵点积)完全不同。:位置对齐,相同位置的元素相乘。,不接受 shape =的矩阵才能做哈达玛积。:行 × 列,涉及加和。
2025-08-24 18:01:26
825
原创 【python】get_dummies()用法
👉 通俗点说:把字符串或类别列拆分成若干个二进制列(0 或 1),机器学习更容易处理。:要转换的数据(Series 或 DataFrame):是否删除第一个类别(避免多重共线性,回归时常用):指定要转换的列(DataFrame 时用)(Dummy Variables),也叫。:是否为缺失值生成一列(默认 False)→ 回归模型常用,避免虚拟变量陷阱。:前缀与值之间的分隔符(默认。
2025-08-23 18:43:00
1395
原创 【python】import pandas as pd用法
是 Python 里最常用的数据分析库之一。 的意思是:导入 pandas 库,并给它起个别名 。这样用起来更简洁:下面总结 pandas 的常见用法(配例子)。目录🔹 1. 数据结构(1) Series(一维数据,类似于数组 + 标签)(2) DataFrame(二维数据表,类似于 Excel 表格)🔹 2. 数据读写🔹 3. 数据查看🔹 4. 数据选择与索引🔹 5. 数据清洗🔹 6. 数据运算🔹 7. 数据筛选(布尔索引)🔹 8. 分组与聚合🔹 9. 排序 Pandas 常用方
2025-08-23 16:39:21
1266
原创 【python】min(key=...)用法
它有一个参数叫 key=...,可以指定一个函数,告诉 min:按照什么标准去比较。min() 是 Python 内置函数,作用是:找出可迭代对象中最小的元素。
2025-08-23 15:56:57
347
【机器学习速记】面试重点/期末考试pdf版
2025-04-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅