- 博客(1157)
- 问答 (5)
- 收藏
- 关注
原创 【机械革命】蛟龙17X笔记本重启后WiFi有时无法自启的问题日志
我是一名计算机专业的学生,前段时间我给我的笔记本电脑重装了Win11系统;但是,我发现每次重启电脑后,Wi-Fi都无法连接,必需要"打开「服务」,找到「WLAN AutoConfig」,手动启动"之后,才可以恢复Wifi连接;我发现每次重启之后都需要手动开启「WLAN AutoConfig」服务;
2026-03-08 17:09:32
12
原创 【Qwen】train()函数说明
Runs the main training loop for Qwen VL (Qwen2-VL, Qwen2.5-VL, Qwen3-VL, or Qwen3-VL-MoE) instruction tuning.Parses command-line arguments for model, data, and training config; loads the appropriate model class and processor; optionally applies LoRA or co
2026-02-08 16:30:12
741
原创 【llava】“ModuleNotFoundError: No module named ‘llava‘”的解决方案
【代码】【llava】“ModuleNotFoundError: No module named ‘llava‘”的解决方案。
2026-02-05 15:51:31
99
原创 【BiFormer】BiFormer: Vision Transformer with Bi-Level Routing Attention 译读笔记
作为视觉变换器的核心构建模块,注意力机制是一种强大的工具,用于捕获长距离依赖关系。然而,这种强大的功能是有代价的:它会导致巨大的计算负担和沉重的内存占用,因为需要在所有空间位置之间进行成对token交互计算。一系列工作试图通过引入手工制作和 content-agnostic 的稀疏性来缓解这个问题,例如将注意力操作限制在局部窗口、轴向条纹或扩张窗口内。与这些方法不同,本文提出了一种通过双层路由的新型动态稀疏注意力机制,以实现更灵活的内容感知计算分配。
2026-02-03 10:17:58
410
原创 【Qwen】make_supervised_data_module() 函数说明
创建用于监督微调(supervised fine-tuning)的数据模块,包括训练数据集和相应的数据整理器(data collator)。实例,并根据是否启用数据打包(data packing)或数据扁平化(data flatten)选择合适的数据整理器。
2026-01-27 16:32:30
293
原创 【LLaVA-NeXT】LLaVATrainer说明
用于训练 LLaVA (Large Language and Vision Assistant) 多模态模型的训练器类,继承自。
2026-01-21 12:17:43
687
原创 【Qwen3-VL】请你用易懂且简洁的语言来介绍一下Qwen3VL的图像预处理
在传统的 VLM(如 LLaVA v1.5)中,图像处理简单粗暴:无论原图什么样,一律强行拉伸/填充成336×336336×336的正方形。这种做法既破坏了长宽比,又浪费了计算量(大量 padding)。Qwen3-VL 摒弃了这种做法,采用了一套更符合人类直觉的Naive Dynamic Resolution(原生动态分辨率)机制。
2026-01-16 22:40:02
669
原创 【LLaVA】《Improved Baselines with Visual Instruction Tuning》译读笔记
大型多模态模型(LMM)最近在视觉指令调优方面取得了令人鼓舞的进展。本文首次系统性地研究在 LLaVA 框架下在受控环境中探讨 LMMs 的设计选择。本文展示了 LLaVA 中全连接的视觉语言连接器功能出乎意料地强大且数据效率高。
2026-01-10 19:01:08
177
原创 【VCD】Mitigating Object Hallucinations in Large Vision-Language Models through Visual...译读笔记
大型视觉语言模型(LVLMs)取得了长足的进步,将视觉识别和语言理解交织在一起,生成的内容不仅连贯而且与语境相契合。尽管取得了成功,LVLMs仍然受困于物体幻觉问题,即模型生成看似合理实则不正确的输出,其中包含图像中不存在的物体。为了缓解这一问题,本文引入了视觉对比解码(VCD),这是一种简单且训练无关的方法,通过对比源自原始视觉输入和扭曲视觉输入的输出分布来工作。所提出的VCD有效减少了对统计偏差和单模态先验的过度依赖,这是导致物体幻觉的两个主要根源。
2025-12-23 18:51:21
240
原创 【Ubuntu】『You are in emergency mode, After logging in, type “journalctl -xb“ to view system logs,...』
今天在启动Ubuntu系统时遇到如图所示的问题,不过我也不太懂怎么处理,就请教了一下ChatGPT;
2025-12-13 21:47:23
201
原创 《Cure or Poison? Embedding Instructions Visually Alters Hallucination in Vision-Language Models》译读笔记
视觉语言模型(VLM)常常出现幻觉,部分原因是多模态信息的对齐难度。本文提出了“图片提示”(Prompt-in-Image),这是一种将文本指令直接嵌入图像中的简单方法。这消除了对单独文本输入的需求,并强制模型通过视觉通道处理所有内容。本文在三种流行的开源 VLM 上进行了该方法的评估:Qwen2.5-VL、LLaVA-1.5 和 InstructBLIP。结果reveal明显的差异。
2025-12-01 16:14:29
512
原创 【Maniskill】看到 class Articulation 还有一个“self.pose”,这个“self.pose”跟“self.qpos”是一样的吗
(位置 + 方向),是“整体放在世界里的姿态”。,也就是“内部关节怎么弯、怎么伸”的状态。
2025-11-21 15:21:03
274
原创 【Maniskill】Articulation说明
linksList[Link]):封装的连杆对象列表;每个Link再封装对应的刚体、网格等信息。对于 GPU 模式,属性如link.pose等通常为形状(N, ...)的张量。links_map):名称到Link的映射,可用这种方式快速索引。rootLink):根连杆(基座)的Link对象。joints):封装的关节对象及其名称映射。仅包含(可驱动的关节)的列表及名称映射。namestr):当前 articulation 的名字。
2025-11-21 14:48:46
486
原创 【Maniskill】Pose说明
Pose是 ManiSkill 对的批量封装,统一了 CPU/GPU 与多并行子场景下的位姿管理,支持张量/列表/SAPIEN 对象互转,并提供与 SAPIEN 相同的乘法、求逆、矩阵转换等接口。
2025-11-20 22:12:24
243
原创 【Maniskill】Actor说明
Actor是 ManiSkill 对 SAPIEN的批量封装,用来同时管理 CPU/GPU、多子场景中的同名刚体。它继承,自动暴露姿态、速度、碰撞信息等接口,是任务端与底层 PhysX 的桥梁。
2025-11-20 21:43:17
418
原创 【Maniskill】怎么感觉Maniskill的命名有点混乱,难道Panda不就是robot吗
Panda= Agent(智能体,包含控制逻辑、传感器等)= Robot(物理机器人,Articulation 对象)Panda没有get_qpos()方法有get_qpos()方法这种命名确实容易让人困惑,但这是 Maniskill 的设计架构。
2025-11-20 09:02:38
364
空空如也
CSDN的MarkDown编辑器里实现PyTorch文档排版效果
2023-03-29
请问一下,CSDN写博文可以插入图标或者fontawesome图标吗?
2021-08-27
请问一下,对于ES引入规则,import模块的文件查找顺序在官方文档的什么地方呢?
2021-05-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅