songyuc-CSDN博客

原创【VLM-RM】Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning 学习笔记

强化学习（RL）要么需要手动指定奖励函数，但这通常不可行；要么是从大量人类反馈中学习奖励模型，这通常非常昂贵。本文研究了一种更具样本效率的替代方案：利用预训练的视觉语言模型作为零样本奖励模型，通过自然语言来指定任务。

2026-04-13 22:16:14 33

原创【矩阵论】关于rank的几何解释：“观测者维度”

一个矩阵Arank3rank2rank1这就是 3B1B 在"线性变换"那几集里反复展示的：矩阵把空间压扁、拉伸、旋转，rank 就是压完之后。ΔW的 rank = 64，意思就是微调带来的变化把信号限制在了一个 64 维的"平面"里（在 3584 维空间中）。几何直觉建立好之后，数学定义只是把这个直觉写成了精确的符号语言，到时候你会觉得"哦，说的就是这个事"。

2026-04-08 17:59:04 29

原创【RL】作为初学者，听说“variance”是RL中一个常见的问题，是吗？

*variance（方差）**是 RL 里非常核心、也非常“头疼”的问题之一。同一个算法、同一组超参数，不同随机种子下结果波动很大（有时学得很好，有时学不动）。

2026-04-08 11:11:51 24

原创 BM2『链表内指定区间反转』学习笔记

【代码】BM2『链表内指定区间反转』学习笔记。

2026-04-07 16:34:05 126

原创【LLM】请通俗易懂地说明 attention_mask 的角色

好，让我用一个最简单的例子从头讲清楚。

2026-03-19 21:44:26 249

不同 head 可以学到不同的"记忆策略"——有的 head 专注短期记忆（衰减快），有的 head 维护长期记忆（衰减慢）。这和 Mamba 中 (A_t) 的作用是类似的。所以 (\exp(g_t) \in (0, 1))，保证记忆矩阵是。，而 (\exp(g_t)) 的 shape 是。这是一个精心设计的数值稳定性保证。（Qwen3.5-9B 中是 32）。这里 (S) 的 shape 是。

2026-03-19 18:37:57 353

原创 Leetcode1.『两数之和』学习笔记

2026-03-19 10:19:46 27

原创【PyTorch】感觉CrossEntropyLoss和BCELoss很类似，为什么它们接收labels的shape常常不一样呢？

问题答案为什么 shape 不一样？因为任务类型不同（互斥 vs 不互斥）本质一样吗？数学上都是交叉熵，但实现方式不同笔试怎么记？CrossEntropy=索引(1D)，BCE=概率(2D)

2026-03-18 22:42:39 400

原创 Leetcode912.『排序数组』学习笔记

【代码】Leetcode912.『排序数组』学习笔记。

2026-03-18 13:33:17 28

原创 Leetcode128.『最长连续序列』学习笔记

setset。

2026-03-16 20:54:17 550

原创【机械革命】蛟龙17X笔记本重启后WiFi有时无法自启的问题日志

我是一名计算机专业的学生，前段时间我给我的笔记本电脑重装了Win11系统；但是，我发现每次重启电脑后，Wi-Fi都无法连接，必需要"打开「服务」，找到「WLAN AutoConfig」，手动启动"之后，才可以恢复Wifi连接；我发现每次重启之后都需要手动开启「WLAN AutoConfig」服务；

2026-03-08 17:09:32 32

原创洗衣服笔记

2026-02-23 22:19:57 102

原创刷题学习笔记

2026-02-23 15:33:35 238

原创旅行行李笔记

鼠标垫。

2026-02-16 16:04:18 119

原创鼠标运维日志

2026-02-13 11:09:56 400

原创【Qwen】train()函数说明

Runs the main training loop for Qwen VL (Qwen2-VL, Qwen2.5-VL, Qwen3-VL, or Qwen3-VL-MoE) instruction tuning.Parses command-line arguments for model, data, and training config; loads the appropriate model class and processor; optionally applies LoRA or co

2026-02-08 16:30:12 762

原创【llava】“ModuleNotFoundError: No module named ‘llava‘”的解决方案

【代码】【llava】“ModuleNotFoundError: No module named ‘llava‘”的解决方案。

2026-02-05 15:51:31 118

原创 Leetcode283.『移动零』学习笔记

【代码】Leetcode283.『移动零』学习笔记。

2026-02-03 11:01:52 130

原创【BiFormer】BiFormer: Vision Transformer with Bi-Level Routing Attention 译读笔记

作为视觉变换器的核心构建模块，注意力机制是一种强大的工具，用于捕获长距离依赖关系。然而，这种强大的功能是有代价的：它会导致巨大的计算负担和沉重的内存占用，因为需要在所有空间位置之间进行成对token交互计算。一系列工作试图通过引入手工制作和 content-agnostic 的稀疏性来缓解这个问题，例如将注意力操作限制在局部窗口、轴向条纹或扩张窗口内。与这些方法不同，本文提出了一种通过双层路由的新型动态稀疏注意力机制，以实现更灵活的内容感知计算分配。

2026-02-03 10:17:58 446

原创【Llava】load_pretrained_model() 说明

使用自定义配置覆盖默认设置。

2026-01-31 22:15:41 933

原创【Vit】Flash-attention 学习笔记

Keywords: flash-attention

2026-01-28 22:38:57 48

原创【Qwen】make_supervised_data_module() 函数说明

创建用于监督微调（supervised fine-tuning）的数据模块，包括训练数据集和相应的数据整理器（data collator）。实例，并根据是否启用数据打包（data packing）或数据扁平化（data flatten）选择合适的数据整理器。

2026-01-27 16:32:30 308

原创【Qwen】DataArguments说明

data_args。

2026-01-27 14:40:06 783

原创【SAR】旋转框定义法学习笔记

oc。

2026-01-25 16:22:08 52

原创【LLaVA-NeXT】LLaVATrainer说明

用于训练 LLaVA (Large Language and Vision Assistant) 多模态模型的训练器类，继承自。

2026-01-21 12:17:43 692

原创【Qwen3-VL】请你用易懂且简洁的语言来介绍一下Qwen3VL的图像预处理

在传统的 VLM（如 LLaVA v1.5）中，图像处理简单粗暴：无论原图什么样，一律强行拉伸/填充成336×336336×336的正方形。这种做法既破坏了长宽比，又浪费了计算量（大量 padding）。Qwen3-VL 摒弃了这种做法，采用了一套更符合人类直觉的Naive Dynamic Resolution（原生动态分辨率）机制。

2026-01-16 22:40:02 705

原创 Leetcode389.『重复的子字符串』学习笔记

【代码】Leetcode389.『重复的子字符串』学习笔记。

2026-01-13 15:45:53 372

原创 Qwen3.5学习笔记

Keywords: qwen

2026-01-12 18:30:50 70

原创【LLaVA】《Improved Baselines with Visual Instruction Tuning》译读笔记

大型多模态模型（LMM）最近在视觉指令调优方面取得了令人鼓舞的进展。本文首次系统性地研究在 LLaVA 框架下在受控环境中探讨 LMMs 的设计选择。本文展示了 LLaVA 中全连接的视觉语言连接器功能出乎意料地强大且数据效率高。

2026-01-10 19:01:08 186

原创 Llava1.5学习笔记

所以整个过程中 CLIP-ViT 的权重。的原始权重完全一样；

2026-01-10 12:38:18 277

原创【Discussion】关于Maniskill为什么在PPO/SAC中使用不同的“control_mode”

您可以放心地将。

2025-12-30 09:40:16 367

原创 Leetcode1768.学习笔记

【代码】Leetcode1768.学习笔记。

2025-12-26 16:17:30 102

原创【VCD】Mitigating Object Hallucinations in Large Vision-Language Models through Visual...译读笔记

大型视觉语言模型（LVLMs）取得了长足的进步，将视觉识别和语言理解交织在一起，生成的内容不仅连贯而且与语境相契合。尽管取得了成功，LVLMs仍然受困于物体幻觉问题，即模型生成看似合理实则不正确的输出，其中包含图像中不存在的物体。为了缓解这一问题，本文引入了视觉对比解码（VCD），这是一种简单且训练无关的方法，通过对比源自原始视觉输入和扭曲视觉输入的输出分布来工作。所提出的VCD有效减少了对统计偏差和单模态先验的过度依赖，这是导致物体幻觉的两个主要根源。

2025-12-23 18:51:21 259

原创 VCD学习笔记

【代码】VCD学习笔记。

2025-12-23 17:51:32 374

原创论文发表信息笔记

CCF-C 类期刊。

2025-12-17 16:38:33 231

原创工商银行信用卡查询笔记

6→9。

2025-12-14 21:57:19 145

TA关注的人

空空如也

CSDN的MarkDown编辑器里实现PyTorch文档排版效果

请问一下，报错“Process finished with exit code 137 (interrupted by signal 9: SIGKILL)”该怎么解决呢？

请问一下，CSDN写博文可以插入图标或者fontawesome图标吗？

【求助大家！！！】Ubuntu 18.04.3 LTS系统无法检测到 Intel CPU的核心显卡

请问一下，对于ES引入规则，import模块的文件查找顺序在官方文档的什么地方呢？

请问一下，使用ERB脚手架时，如果有类似的名称的json文件，就无法引入组件，该怎么处理呢？