- 博客(1167)
- 问答 (5)
- 收藏
- 关注
原创 【VLM-RM】Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning 学习笔记
强化学习(RL)要么需要手动指定奖励函数,但这通常不可行;要么是从大量人类反馈中学习奖励模型,这通常非常昂贵。本文研究了一种更具样本效率的替代方案:利用预训练的视觉语言模型作为零样本奖励模型,通过自然语言来指定任务。
2026-04-13 22:16:14
33
原创 【矩阵论】关于rank的几何解释:“观测者维度”
一个矩阵Arank3rank2rank1这就是 3B1B 在"线性变换"那几集里反复展示的:矩阵把空间压扁、拉伸、旋转,rank 就是压完之后。ΔW的 rank = 64,意思就是微调带来的变化把信号限制在了一个 64 维的"平面"里(在 3584 维空间中)。几何直觉建立好之后,数学定义只是把这个直觉写成了精确的符号语言,到时候你会觉得"哦,说的就是这个事"。
2026-04-08 17:59:04
29
原创 【RL】作为初学者,听说“variance”是RL中一个常见的问题,是吗?
*variance(方差)**是 RL 里非常核心、也非常“头疼”的问题之一。同一个算法、同一组超参数,不同随机种子下结果波动很大(有时学得很好,有时学不动)。
2026-04-08 11:11:51
24
原创 【GDNet】关于gt的解释与说明
不同 head 可以学到不同的"记忆策略"——有的 head 专注短期记忆(衰减快),有的 head 维护长期记忆(衰减慢)。这和 Mamba 中 (A_t) 的作用是类似的。所以 (\exp(g_t) \in (0, 1)),保证记忆矩阵是。,而 (\exp(g_t)) 的 shape 是。这是一个精心设计的数值稳定性保证。(Qwen3.5-9B 中是 32)。这里 (S) 的 shape 是。
2026-03-19 18:37:57
353
原创 【PyTorch】感觉CrossEntropyLoss和BCELoss很类似,为什么它们接收labels的shape常常不一样呢?
问题答案为什么 shape 不一样?因为任务类型不同(互斥 vs 不互斥)本质一样吗?数学上都是交叉熵,但实现方式不同笔试怎么记?CrossEntropy=索引(1D),BCE=概率(2D)
2026-03-18 22:42:39
400
原创 【机械革命】蛟龙17X笔记本重启后WiFi有时无法自启的问题日志
我是一名计算机专业的学生,前段时间我给我的笔记本电脑重装了Win11系统;但是,我发现每次重启电脑后,Wi-Fi都无法连接,必需要"打开「服务」,找到「WLAN AutoConfig」,手动启动"之后,才可以恢复Wifi连接;我发现每次重启之后都需要手动开启「WLAN AutoConfig」服务;
2026-03-08 17:09:32
32
原创 【Qwen】train()函数说明
Runs the main training loop for Qwen VL (Qwen2-VL, Qwen2.5-VL, Qwen3-VL, or Qwen3-VL-MoE) instruction tuning.Parses command-line arguments for model, data, and training config; loads the appropriate model class and processor; optionally applies LoRA or co
2026-02-08 16:30:12
762
原创 【llava】“ModuleNotFoundError: No module named ‘llava‘”的解决方案
【代码】【llava】“ModuleNotFoundError: No module named ‘llava‘”的解决方案。
2026-02-05 15:51:31
118
原创 【BiFormer】BiFormer: Vision Transformer with Bi-Level Routing Attention 译读笔记
作为视觉变换器的核心构建模块,注意力机制是一种强大的工具,用于捕获长距离依赖关系。然而,这种强大的功能是有代价的:它会导致巨大的计算负担和沉重的内存占用,因为需要在所有空间位置之间进行成对token交互计算。一系列工作试图通过引入手工制作和 content-agnostic 的稀疏性来缓解这个问题,例如将注意力操作限制在局部窗口、轴向条纹或扩张窗口内。与这些方法不同,本文提出了一种通过双层路由的新型动态稀疏注意力机制,以实现更灵活的内容感知计算分配。
2026-02-03 10:17:58
446
原创 【Qwen】make_supervised_data_module() 函数说明
创建用于监督微调(supervised fine-tuning)的数据模块,包括训练数据集和相应的数据整理器(data collator)。实例,并根据是否启用数据打包(data packing)或数据扁平化(data flatten)选择合适的数据整理器。
2026-01-27 16:32:30
308
原创 【LLaVA-NeXT】LLaVATrainer说明
用于训练 LLaVA (Large Language and Vision Assistant) 多模态模型的训练器类,继承自。
2026-01-21 12:17:43
692
原创 【Qwen3-VL】请你用易懂且简洁的语言来介绍一下Qwen3VL的图像预处理
在传统的 VLM(如 LLaVA v1.5)中,图像处理简单粗暴:无论原图什么样,一律强行拉伸/填充成336×336336×336的正方形。这种做法既破坏了长宽比,又浪费了计算量(大量 padding)。Qwen3-VL 摒弃了这种做法,采用了一套更符合人类直觉的Naive Dynamic Resolution(原生动态分辨率)机制。
2026-01-16 22:40:02
705
原创 【LLaVA】《Improved Baselines with Visual Instruction Tuning》译读笔记
大型多模态模型(LMM)最近在视觉指令调优方面取得了令人鼓舞的进展。本文首次系统性地研究在 LLaVA 框架下在受控环境中探讨 LMMs 的设计选择。本文展示了 LLaVA 中全连接的视觉语言连接器功能出乎意料地强大且数据效率高。
2026-01-10 19:01:08
186
原创 【VCD】Mitigating Object Hallucinations in Large Vision-Language Models through Visual...译读笔记
大型视觉语言模型(LVLMs)取得了长足的进步,将视觉识别和语言理解交织在一起,生成的内容不仅连贯而且与语境相契合。尽管取得了成功,LVLMs仍然受困于物体幻觉问题,即模型生成看似合理实则不正确的输出,其中包含图像中不存在的物体。为了缓解这一问题,本文引入了视觉对比解码(VCD),这是一种简单且训练无关的方法,通过对比源自原始视觉输入和扭曲视觉输入的输出分布来工作。所提出的VCD有效减少了对统计偏差和单模态先验的过度依赖,这是导致物体幻觉的两个主要根源。
2025-12-23 18:51:21
259
空空如也
CSDN的MarkDown编辑器里实现PyTorch文档排版效果
2023-03-29
请问一下,CSDN写博文可以插入图标或者fontawesome图标吗?
2021-08-27
请问一下,对于ES引入规则,import模块的文件查找顺序在官方文档的什么地方呢?
2021-05-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅