Jumbo星-CSDN博客

原创可变形卷积（DCN，Deformable Convolution Network）

ICCV 2017的一篇文章。可变形卷积（DCN）的原理和实现。在目标检测领域应用广泛，在项目、课程设计、毕业设计、比赛中对许多数据集和许多目标检测算法（只要含卷积操作），都能有不错的提升，泛化性很强。

2022-08-10 16:38:09 61340 15

原创陈天桥：从“游戏暴君“到脑科学赌徒

陈天桥 / 盛大游戏 / 《传奇》/ 脑科学 / TCCI / 脑机接口 / 中国互联网历史。游戏（刺激大脑）→ 脑科学（理解大脑）→ AI+脑科学（增强大脑）2005年前后，如果你在网吧里玩过这些游戏——近几年，陈天桥重新出现在公众视野，切入点是。

2026-03-17 19:24:10 379

OpenClaw 是一个开源的、自托管的 AI 网关（Gateway），它能把你的聊天软件（企业微信、飞书、钉钉、WhatsApp、Telegram、Discord 等）连接到 AI Agent。简单说，它是一个"管道"，让 AI 助手能通过你日常使用的通讯工具为你服务。核心特点：• 自托管（Self-hosted）：运行在你自己的机器上，对话数据和文件留在本地（只保证数据不外传，调用外部api的时候还是有数据泄露风险）

2026-03-10 19:17:48 702

原创 qwen3vl的image_max_token_num和max_pixels

摘要：Qwen3-VL模型相较前代版本调整了图像预处理方式，将环境参数从MAX_PIXELS改为IMAGE_MAX_TOKEN_NUM。经分析发现patch_size从14变为16，导致下采样因子（IMAGE_FACTOR）从28变为32。用户可通过简单换算实现参数对齐：原MAX_PIXELS=602112对应新参数IMAGE_MAX_TOKEN_NUM=768。该变化源于模型架构调整，建议直接按最终token数设置新参数。（149字）

2025-10-20 15:48:54 3413

原创加载qwen2.5vl出现mismatch问题

其中找到configuration_utils.py里的PretrainedConfig类，有一样的代码，修改后发现确实调用这里的warning，在这里进行debug就行。这个应该就是问题来源，也就是说我加载的模型里model_type为qwen2.5vl，但是模型加载代码里的model类型是qwen2vl，没匹配上模型结构。在vlmevalkit框架里被定义，简单来说就是我的框架里的config.py里定义了。为什么这里是qwen2_vl呢，我就追溯这个cls实例的来源，后面发现是在。

2025-09-30 11:25:04 473

原创 Qwen3Guard解读

训练采取SFT方式，对标签质量要求高，为了减少噪声、数据清洗，先把数据分为A/B两部分，A/B中各自调整黑/白数据配比训练了一个严格模型和宽松模型，然后分别用来预测另外的集合进行投票，选出有争议（即又被预测为安全和宽松）的数据。技术报告，整体来说这个模型是纯NLP的模型，而且从贴切程度上讲：大模型安全 > 平台内容审核，猜测动机和背景是专用于qwen系列LLM输出/输入审核的大模型安全审核模型。合成数据的时候，因为Instruct模型输出会比较安全，所以采取Base模型进行数据的生产。

2025-09-24 11:26:12 604

原创 QPS和RPM的全称

RPM和QPS是性能监控的核心指标：RPM（每分钟请求数）适用于分钟级流量分析，QPS（每秒查询数）用于评估系统吞吐量。术语差异源于场景习惯——QPS多用于数据库等查询系统，RPS更通用。秒级粒度（QPS）能捕捉瞬时负载，而分钟级（RPM）会平滑波动。RPM采用"Requests"因其涵盖性更广，而"Queries"可能局限只读场景。本质1QPS=1RPS，但领域术语偏好不同。

2025-09-08 20:05:32 837

原创 VLMEvalKit使用记录

摘要：本文介绍了使用OpenCompass开源工具包VLMEvalKit进行视觉语言模型(VLM)评测的过程。作者以Qwen2.5-VL-7B-Instruct模型和MMBench_DEV_EN评测集为例，详细记录了环境配置、数据集下载（遇到网络中断问题后转为手动下载）、模型加载（通过修改配置文件指定本地权重路径）以及flash-attn安装等关键步骤。文章特别强调了网络不稳定时的解决方案，包括手动下载数据集和模型权重的方法，并分享了flash-attn编译安装过程中遇到的常见问题及解决思路。最终成功启动模

2025-08-07 13:01:12 1674

原创 Qwen2.5VL-3B在小分辨率下推理速度比7B块

看了一眼tech report，7B的LLM中layers数量比3B更少（28 vs 36）

2025-06-30 19:35:34 1073

原创大语言模型LLM在训练/推理时的padding

在训练和推理Transformer模型时，填充方式的选择至关重要。训练时通常采用右填充（right padding），将[PAD]符号加在序列末尾，使真实token集中在左侧，便于模型学习连续依赖关系，同时通过掩码忽略填充部分的损失计算。推理时则采用左填充（left padding），将真实内容推向右侧，确保自回归生成时模型只需关注最新token，避免填充符号干扰输出质量。这种差异化的填充策略（如HuggingFace库中的可配置选项）优化了模型在不同阶段的表现，训练侧重有效学习，推理侧重准确生成。

2025-06-30 16:08:18 1173

原创 libcublas.so.11: file too short

今天训练的时候报错：ImportError:/xxx/myenv/swift3/lib/python3.10/site-packages/torch/lib/../../nvidia/cublas/lib/libcublas.so.11: file too short。网上搜不到相关的issue，最后重新安装了一下torch (pip install torch==xx 原先的版本)就恢复了。很奇怪环境最近一直没动过只有某次训练的时候开始报这个错然后一直可复现。

2025-05-22 18:27:36 214

原创随记1-LLM多轮对话的陷阱

微软文章《LLMsGetLostInMulti-TurnConversation》探讨了大语言模型（LLMs）在多轮对话中的表现问题。尽管LLMs在单轮任务评估中表现优异，但在实际多轮对话中效果不佳。主要原因包括：1. 模型在早期对话中可能产生幻觉，过早给出不准确的答案；2. 多轮对话中，前面对话的上下文被重新输入，增加了噪声和token长度，削弱了问题的重要性。文章建议模型开发者应优化多轮对话的可靠性，提升信息整合和澄清能力，同时提醒用户尽量在单次对话中准确表达需求，避免持续局部纠正导致模型表现下降。

2025-05-20 19:50:31 325

原创为什么大模型训练时的best_ckpt并不“best“

在训练视觉语言模型（VLM）时，发现基于评估损失或准确率选择的最佳检查点（best_ckpt）在最终指标计算中表现不如最后一个检查点（last_ckpt）。这一现象源于生成式模型在训练和推理阶段的不同行为模式。训练阶段采用教师强制（Teaching Force），模型依赖真实标签生成token，避免了错误传播，使得训练过程稳定且容易。然而，推理阶段采用自回归生成（Step by Step），模型依赖自身生成的token，早期错误会逐步累积，导致生成结果不稳定且难度增加。这种训练与推理的不一致性，即暴露偏差（

2025-05-12 20:08:24 823

原创 RuntimeError: Triton Error [CUDA]: device kernel image is invalid

（其实内心是不太想改版本的，因为我的torch 2.5.1明确指定要triton==3.1.0及以上，而且跑这个训练需要太多编译的依赖库诸如flash-attn，vllm，ms-swift，改个版本很容易连锁反应不兼容）背景：最近在尝试用ms-swift做多模态大模型的GRPO训练，发现一个很坑的问题。所以确定是num_infer_workers这个参数没正确传入导致发生的该报错，太隐蔽了。后面多加了个一个空格，即变成了--num_infer_workers 2+空格。我尝试了一下，还是不行。

2025-03-31 11:22:47 979 2

原创 Visual-RFT论文解读

OpenAI o1、DeepSeek-R1等大型推理模型模型中的强化微调（Reinforcement Fine-Tuning ，RFT）在微调数据（FT）稀缺的情况下特别重要，但是这种具备可验证奖励的强化学习在多模态领域的应用没有得到充分的探索（前阵子其实还有一篇VLM-R1的开源仓库）。这篇工作介绍了VRFT，简单来说，用VLM对输入生成多个推理结果和最终答案，然后使用提出的视觉感知验证奖励函数进行优化模型（通过策略优化算法比如GRPO）。

2025-03-11 10:29:28 1115

原创 Swin-transformer和ViT的竞争

背景：读研的时候做目标检测算法的课题，那会基本都用ResNet当主干网络。为了“创新”，蹭了最新的Transformer，ViT比较简单粗暴，将Image 切成一个个小patch并且token化，但是随之带来的也有很多问题，比如对于目标检测的多尺度特征不友好，大尺寸图计算效率低等，于是后面有人提出了Swin-Transformer，在目标检测上也更友好，后面我的课题和小论文里backbone也采用了Swin-Transformer。

2025-03-05 11:17:11 1127

原创 ms-swift 3.x和2.x中参数不一致的暗坑

虽然ms-swift 3.x发布也有一段时间官方文档也对使用上参数的变动做了一些说明但是这个说明基本上都是说发生了变化对于一些的变化暂时还没给出说明/统计文档我这边基于工作中遇到的一些坑，整理了部分，希望大家在使用的时候留意。注意，在这个文档里官方已给出的参数差异我在这不做赘述分析，只展示我个人发现的一些暗坑，时间关系没有做精准校对，如果发现写错or官方更新文档还请评论区提醒我。

2025-02-26 16:37:12 990

原创 ms-swift3 序列分类训练

swift 3.x支持了序列分类想尝试一下用多模态（图像）的序列分类与普通的图像分类任务有啥区别。

2025-02-14 14:24:40 2347 5

原创 [解决错误]AttributeError: ‘MiniCPMVTokenizerFast‘ object has no attribute ‘image_processor‘

大概原因就是缺少原pretrained模型中一些.py，.json文件导致的，就是训练后只保存了一些权重相关的文件，但是要进行推理的话，还需要自行cp过去一些“配置文件”比如MiniCPM-V-2.6在进行官方的finetune后（swift进行finetune后好像不会有这个问题，具体没去看），保留下来的ckpt文件夹跟原版的对比（左finetune右pretrained），缺少了三个文件。其他的大模型或多或少也有类似的问题，比如InternVL-2，我都会习惯性加这个命令后再推理。

2024-09-25 11:00:01 1053

原创 MiniCPM-V 2.6训练时fuse_adam报错

原本pip install deepspeed安装了0.15.1版本的，但是在进行sft训练的时候还是报错。大概就是fuse_adam这个op编译有错，c++版本要大于17什么的，一堆错。我原本的gcc是5.3.1，编译的时候一直报错，升级到了 8.3.1发现可以。1.下载DeepSpeend源码。2. 升级gcc版本。

2024-09-24 18:46:52 664 2

原创阿里开源多模态大模型Ovis1.6

Ovis1.6开源地址和Demo：

2024-09-19 13:57:31 446

原创 InternVL-2B尝试

如果hf-cli不会用or安装失败可以自行去hugging face搜索InternVL-2B安装或者上hf-mirror.com镜像站安装，这里不做阐述。利用这个脚本测试，注意修改path = 'OpenGVLab/InternVL2-8B'为InternVL-2B的路径。这个脚本最好放在InternVL-2B目录下，这样输入的图像都在相对路径./examples中，否则也需要相应修改。这个demo有纯文本对话、输入单图单轮对话、输入单图多轮对话、输入多图多轮对话、输入视频对话等等。

2024-09-05 19:48:43 784

原创 DriveLM的baseline复现

DriveLM是一篇在ECCV 2024上发表的论文，它探讨了自动驾驶领域中结合图视觉问答（Graph Visual Question Answering）的技术。这篇论文的主要内容是关于如何将自动驾驶技术与语言的无限潜力结合起来，以解锁自动驾驶的未来。这项研究可能涉及到使用自然语言处理和机器学习技术来提高自动驾驶系统的理解能力和交互性，使其能够更好地理解和响应驾驶环境中的各种情况。

2024-09-03 20:34:09 3350 10

原创 Depth anything v2环境相关问题

2.x的版本不兼容。因为我的torch版本较高，所以numpy改成一个较高的版本：1.26.4。可用。

2024-08-27 14:34:01 2742 2

原创 python setup.py build install的GCC版本报错

在进行一些python三方库编译的时候，有时候会因为环境中的GCC版本导致编译错误，比如在mmdet3d，mmcv-full等库的使用中。比如这个case中，说我的g++版本是4.8.5，需要把GCC提高到5.0以上。最后查看新的gcc 版本。

2024-08-26 20:14:32 788 1

原创 MapTR的BEV结果可视化到PV图中

标注是在lidar坐标系中的，因此lidar的z=0是跟lidar平高的，然而地面点是低于lidar的，因此需要设置一个z。MapTRv2这篇工作很有意思的一点是预测可视化的时候，在Argoverse数据集上把BEV的预测结果投影到PV图中，来更直观地评估预测结果的好坏，如下图所示。注：实际上笔者认为，BEV下的标注是ego坐标系下的，而如果要用lidar2img转换为图像坐标系下进行可视化，中间还需要进行一步ego2lidar。这一步人工加了一个z维度，而argoverse所有的点z=0。

2024-08-21 15:16:02 824 3

原创 Mac系统使用COLMAP

注意PATH="/usr/local/opt/qt@5/bin:$PATH"和-DQt5_DIR=/usr/local/opt/qt/lib/cmake/Qt5。因此需要改成/opt/homebrew/opt/qt@5/bin和/opt/homebrew/opt/qt@5/lib/cmake/Qt5。这两行代码中的路径根据依赖安装qt5时返回的具体路径而定，比如。如有出入，参照官网手册最新版。2.配置并编译COLMAP。查看是否跳出帮助和界面。

2024-06-06 14:54:39 1094 1

原创 colmap导出相机内参/外参

后者images.txt里包含了相机外参，注释写的很清楚，包含了外参中的旋转矩阵R代表的四元数和平移向量T的三个分量。这里很好理解的是前面几个参数"1 OPENCV 1280 720 "分别代表了 CAMERA_ID, MODEL, WIDTH, HEIGHT。后面的参数"1249.43 519.15 640 360"分别代表了内参矩阵中的fx,fy,cx,cy。找到头文件，根据下面的源码地址可以看出实际上这四个数字对应了k1, k2, p1, p2。我们重点来看cameras.txt里的相机内参。

2024-05-21 20:12:39 4092

空空如也

空空如也