自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

墨门

墨雨霏霏,强秦莫摧。

  • 博客(1157)
  • 问答 (5)
  • 收藏
  • 关注

原创 【机械革命】蛟龙17X笔记本重启后WiFi有时无法自启的问题日志

我是一名计算机专业的学生,前段时间我给我的笔记本电脑重装了Win11系统;但是,我发现每次重启电脑后,Wi-Fi都无法连接,必需要"打开「服务」,找到「WLAN AutoConfig」,手动启动"之后,才可以恢复Wifi连接;我发现每次重启之后都需要手动开启「WLAN AutoConfig」服务;

2026-03-08 17:09:32 12

原创 洗衣服笔记

2026-02-23 22:19:57 91

原创 刷题学习笔记

2026-02-23 15:33:35 229

原创 旅行行李笔记

鼠标垫。

2026-02-16 16:04:18 105

原创 鼠标运维日志

2026-02-13 11:09:56 392

原创 【Qwen】train()函数说明

Runs the main training loop for Qwen VL (Qwen2-VL, Qwen2.5-VL, Qwen3-VL, or Qwen3-VL-MoE) instruction tuning.Parses command-line arguments for model, data, and training config; loads the appropriate model class and processor; optionally applies LoRA or co

2026-02-08 16:30:12 741

原创 【llava】“ModuleNotFoundError: No module named ‘llava‘”的解决方案

【代码】【llava】“ModuleNotFoundError: No module named ‘llava‘”的解决方案。

2026-02-05 15:51:31 99

原创 Leetcode283.『移动零』学习笔记

【代码】Leetcode283.『移动零』学习笔记。

2026-02-03 11:01:52 118

原创 【BiFormer】BiFormer: Vision Transformer with Bi-Level Routing Attention 译读笔记

作为视觉变换器的核心构建模块,注意力机制是一种强大的工具,用于捕获长距离依赖关系。然而,这种强大的功能是有代价的:它会导致巨大的计算负担和沉重的内存占用,因为需要在所有空间位置之间进行成对token交互计算。一系列工作试图通过引入手工制作和 content-agnostic 的稀疏性来缓解这个问题,例如将注意力操作限制在局部窗口、轴向条纹或扩张窗口内。与这些方法不同,本文提出了一种通过双层路由的新型动态稀疏注意力机制,以实现更灵活的内容感知计算分配。

2026-02-03 10:17:58 410

原创 【Llava】load_pretrained_model() 说明

使用自定义配置覆盖默认设置。

2026-01-31 22:15:41 912

原创 【Vit】Flash-attention 学习笔记

Keywords: flash-attention

2026-01-28 22:38:57 40

原创 【Qwen】make_supervised_data_module() 函数说明

创建用于监督微调(supervised fine-tuning)的数据模块,包括训练数据集和相应的数据整理器(data collator)。实例,并根据是否启用数据打包(data packing)或数据扁平化(data flatten)选择合适的数据整理器。

2026-01-27 16:32:30 293

原创 【Qwen】DataArguments说明

data_args。

2026-01-27 14:40:06 769

原创 【SAR】旋转框定义法学习笔记

oc。

2026-01-25 16:22:08 41

原创 【LLaVA-NeXT】LLaVATrainer说明

用于训练 LLaVA (Large Language and Vision Assistant) 多模态模型的训练器类,继承自。

2026-01-21 12:17:43 687

原创 【Qwen3-VL】请你用易懂且简洁的语言来介绍一下Qwen3VL的图像预处理

在传统的 VLM(如 LLaVA v1.5)中,图像处理简单粗暴:无论原图什么样,一律强行拉伸/填充成336×336336×336的正方形。这种做法既破坏了长宽比,又浪费了计算量(大量 padding)。Qwen3-VL 摒弃了这种做法,采用了一套更符合人类直觉的Naive Dynamic Resolution(原生动态分辨率)机制。

2026-01-16 22:40:02 669

原创 Leetcode389.『重复的子字符串』学习笔记

【代码】Leetcode389.『重复的子字符串』学习笔记。

2026-01-13 15:45:53 364

原创 LLM&QwenVL学习笔记

Keywords: qwen

2026-01-12 18:30:50 42

原创 【LLaVA】《Improved Baselines with Visual Instruction Tuning》译读笔记

大型多模态模型(LMM)最近在视觉指令调优方面取得了令人鼓舞的进展。本文首次系统性地研究在 LLaVA 框架下在受控环境中探讨 LMMs 的设计选择。本文展示了 LLaVA 中全连接的视觉语言连接器功能出乎意料地强大且数据效率高。

2026-01-10 19:01:08 177

原创 Llava1.5学习笔记

所以整个过程中 CLIP-ViT 的权重。的原始权重完全一样;

2026-01-10 12:38:18 267

原创 【Discussion】关于Maniskill为什么在PPO/SAC中使用不同的“control_mode”

您可以放心地将。

2025-12-30 09:40:16 347

原创 Leetcode1768.学习笔记

【代码】Leetcode1768.学习笔记。

2025-12-26 16:17:30 89

原创 【VCD】Mitigating Object Hallucinations in Large Vision-Language Models through Visual...译读笔记

大型视觉语言模型(LVLMs)取得了长足的进步,将视觉识别和语言理解交织在一起,生成的内容不仅连贯而且与语境相契合。尽管取得了成功,LVLMs仍然受困于物体幻觉问题,即模型生成看似合理实则不正确的输出,其中包含图像中不存在的物体。为了缓解这一问题,本文引入了视觉对比解码(VCD),这是一种简单且训练无关的方法,通过对比源自原始视觉输入和扭曲视觉输入的输出分布来工作。所提出的VCD有效减少了对统计偏差和单模态先验的过度依赖,这是导致物体幻觉的两个主要根源。

2025-12-23 18:51:21 240

原创 VCD学习笔记

【代码】VCD学习笔记。

2025-12-23 17:51:32 367

原创 论文发表信息笔记

CCF-C 类期刊。

2025-12-17 16:38:33 223

原创 工商银行信用卡查询笔记

6→9。

2025-12-14 21:57:19 138

原创 【Ubuntu】『You are in emergency mode, After logging in, type “journalctl -xb“ to view system logs,...』

今天在启动Ubuntu系统时遇到如图所示的问题,不过我也不太懂怎么处理,就请教了一下ChatGPT;

2025-12-13 21:47:23 201

原创 《Cure or Poison? Embedding Instructions Visually Alters Hallucination in Vision-Language Models》译读笔记

视觉语言模型(VLM)常常出现幻觉,部分原因是多模态信息的对齐难度。本文提出了“图片提示”(Prompt-in-Image),这是一种将文本指令直接嵌入图像中的简单方法。这消除了对单独文本输入的需求,并强制模型通过视觉通道处理所有内容。本文在三种流行的开源 VLM 上进行了该方法的评估:Qwen2.5-VL、LLaVA-1.5 和 InstructBLIP。结果reveal明显的差异。

2025-12-01 16:14:29 512

原创 LangChain学习笔记

输入错误,需要检查一下;

2025-11-30 20:44:39 233

原创 【VSCode】配置自动排版

VSCode

2025-11-27 15:17:13 239

原创 通配符学习笔记

2025-11-26 18:55:21 342

原创 论文信息查询笔记

2025-11-25 10:36:21 345

原创 【Maniskill】看到 class Articulation 还有一个“self.pose”,这个“self.pose”跟“self.qpos”是一样的吗

(位置 + 方向),是“整体放在世界里的姿态”。,也就是“内部关节怎么弯、怎么伸”的状态。

2025-11-21 15:21:03 274

原创 【Maniskill】Articulation说明

linksList[Link]):封装的连杆对象列表;每个Link再封装对应的刚体、网格等信息。对于 GPU 模式,属性如link.pose等通常为形状(N, ...)的张量。links_map):名称到Link的映射,可用这种方式快速索引。rootLink):根连杆(基座)的Link对象。joints):封装的关节对象及其名称映射。仅包含(可驱动的关节)的列表及名称映射。namestr):当前 articulation 的名字。

2025-11-21 14:48:46 486

原创 【ManiSkill】Link说明

Link。

2025-11-21 14:02:07 913

原创 lmms-eval 学习笔记

lmms-eval/blob/main/lmms_eval/tasks/vqav2/vqav2_val.yaml

2025-11-21 12:04:35 362

原创 【Maniskill】Pose说明

Pose是 ManiSkill 对的批量封装,统一了 CPU/GPU 与多并行子场景下的位姿管理,支持张量/列表/SAPIEN 对象互转,并提供与 SAPIEN 相同的乘法、求逆、矩阵转换等接口。

2025-11-20 22:12:24 243

原创 【Maniskill】Actor说明

Actor是 ManiSkill 对 SAPIEN的批量封装,用来同时管理 CPU/GPU、多子场景中的同名刚体。它继承,自动暴露姿态、速度、碰撞信息等接口,是任务端与底层 PhysX 的桥梁。

2025-11-20 21:43:17 418

原创 【Maniskill】PickCubeEnv说明

【代码】【Maniskill】PickCubeEnv说明。

2025-11-20 13:26:41 1057

原创 【Maniskill】怎么感觉Maniskill的命名有点混乱,难道Panda不就是robot吗

Panda= Agent(智能体,包含控制逻辑、传感器等)= Robot(物理机器人,Articulation 对象)Panda没有get_qpos()方法有get_qpos()方法这种命名确实容易让人困惑,但这是 Maniskill 的设计架构。

2025-11-20 09:02:38 364

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除