- 博客(302)
- 资源 (12)
- 收藏
- 关注
原创 LLM+RL最佳实践
在当前,使用强化学习(RL)对一个预训练的大模型进行后训练受到了越来越多的关注。在本文中,笔者简单总结了一下较为有代表性的相关工作,将 RL + LLM 的算法分成大致以下三种工作,分别做简要的介绍,供大家分享交流。
2025-12-03 16:11:10
824
原创 SAM3 使用文本提示进行图像分割详细步骤
SAM3 通过文本提示进行图像分割的流程清晰且高效,主要包括模型初始化、图像预处理、文本提示设置、模型推理和结果可视化等步骤。这种基于文本提示的分割方式大大提升了交互性和实用性,使得用户可以通过简单的文本描述来精确分割感兴趣的图像区域。
2025-12-03 14:13:38
1059
原创 Qwen3-VL的强化微调
前面的是SFT-then-RLHF的范式,CHORD则是融合了SFT和RLHF,把SFT和在线GRPO的loss加权decay,同时使用和DFT类似的token级别的权重控制方法Importance Sampling,对于模型输出的prob的token和prob低的token,都赋予低的权重(prob高的已经学会了,继续高权重容易导致过拟合entropy collapse;效果上,用8b模型蒸馏qwen3-vl-256b的效果,如果原始的有92%的ACC,SFT的大约87%,CHORD可以到91%
2025-11-17 15:48:13
1179
原创 文生图通用规则和提示词
建议用简洁连贯的自然语言写明 主体 + 行为 + 环境,若对画面美学有要求,可用自然语言或短语补充 风格、色彩、光影、构图 等美学元素。示例:一个穿着华丽服装的女孩,撑着遮阳伞走在林荫道上,莫奈油画风格。避免:一个女孩,撑伞,林荫街道,油画般的细腻笔触。
2025-11-17 14:02:02
1399
原创 快速上手PaddleOCR-VL
是百度飞桨团队于 2025 年 10 月开源的轻量化多模态文档解析模型,仅用 0.9 B 参数就在国际权威评测 OmniDocBench V1.5 上以 92.6 分登顶全球第一,超越 GPT-4o 等 70 B+ 级大模型。采用 NaViT 动态高分辨率视觉编码器 + 轻量级 ERNIE-4.5-0.3B 语言模型,兼顾高精度与高效率,在文档元素识别任务中表现卓越,同时显著降低计算资源消耗,适合实际部署。
2025-11-04 09:00:00
1212
原创 一文带你彻底理解AIGC、Agent、MCP的概念和关系
而 OpenAI Agent SDK 可以让开发者定义多个领域的 Agent,并且给这些 Agent 配置一些转交关系,允许某个 Agent 把特定的任务交给另外一个合适领域的 Agent 来执行,多个 Agent 之间协同和互动来完成一个复杂任务。实际上上文提到的 Function Call 模型的工作流程图,已经算是一个 Agent 的雏形了,不同点是,Agent 完成一次任务,实际上会循环调用模型,可能会调用多次 Function Calling,每次需要调用什么工具,完全由模型决策。
2025-11-03 10:00:00
1890
原创 大模型提示词技巧Prompt Engineering,看这一篇就够了
你在写prompt时候,是不是总觉得大模型它不听话。要么答非所问、要么一堆废话。扒开思考过程仔细阅读时而觉得它聪明绝顶,时而又觉得它愚蠢至极。明明已经对了怎么又推理到错的地方去了,明明在提示词中提醒过了不要这么思考它怎么就瞎想了。这也许就是每一个Prompt Engineer的困扰。怎么能让模型按照要求去思考。长提示词到底应该怎么写,有没有方法可以一次命中,找到那个终极的提示词。答案是否定的,一篇成功的长提示词总是要经历初始版本、调优、测试、再调优。不过这个过程中有规律可循,有方法可套。
2025-11-03 08:30:00
589
原创 模型上下文协议 (MCP) 快速入门
当大型语言模型首次出现时,用户必须将代码复制并粘贴到文本界面才能与其交互。这很快就被证明是不够的,因此需要自定义集成以更好地加载上下文。然而,这些集成是分散的,需要单独开发。模型上下文协议通过提供通用协议来解决此问题,以便与本地和远程资源进行高效的 AI 交互。原文:Model Context Protocol (MCP) Quickstart地址:https://glama.ai/blog/2024-11-25-model-context-protocol-quickstart。
2025-10-28 10:05:51
948
原创 使用 OpenClip 微调 CLIP 模型以适应下游任务的初学者指南
如果由于某些原因你的服务器无法通过官方 OpenClip 脚本直接下载这些发布的模型,你仍然可以使用其他方法将它们下载到本地机器,然后上传到服务器。在你成功将预训练模型上传到服务器后,使用以下示例代码进行测试(记得根据你的实际情况替换“model_path”、“model_name”和“img_path”)。现在通过官方示例测试你的项目设置,它会自动下载所需的模型(记得根据你的实际情况替换“img_path”)。如果你得到了相应的输出,恭喜你,你已经完成了所有的准备工作!因此,请根据实际情况安装你的环境。
2025-10-28 09:25:51
859
原创 linux常用命令
du -h --max-depth=1 --threshold=5G 查看当前文件夹下大于一定大小的文件。du -sh /xxx/xxx/xxx/* 查看指定文件夹中各文件的大小。j :工作的格式 (jobs format)-f :做一个更为完整的输出。-A :所有的 process 均显示出来,与 -e 具有同样的效用;-a :不与 terminal 有关的所有 process;wc -l 查看文件行数 wc -l log.txt。ls -l|wc -l 查看文件下下文件个数。
2025-09-24 16:38:27
311
原创 deformable detr 详解
但是当batch_size > 1时,问题就出现了:我们知道在一个batch内我们会做padding的操作,对于这些不同尺寸的特征图也是如此(被padding部分的像素拉平后,就是一个为0的token向量,和nlp中的padding是一样的)。但由于我们并不知道具体要使用多大的特征图才合适,所以我们有了一个异想天开的想法:把各种不同尺寸的特征图都试一次,然后把在每个特征图上的结果综合起来,这样不就能提升小物体被检测出来的概率了吗。牢记这个目标,再回头看一遍上面的过程,你就能有更清楚的理解了。
2025-09-15 08:30:00
868
原创 GroundingDINO部署和训练
目前只能官方模型支持导出onnx.在导出时需要将groundingdino.py替换成groundingdino_export.py,否则会报错。在github上下载averaged_perceptron_tagger.zip放在/root/nltk_data/代码在mmdetection\mmdet\models\language_models\bert.py中。增加path变量,加载tokenlize的反射光hi改为访问本地path.在github上下载punkt.zip。
2025-09-08 08:30:00
968
原创 ms-swift微调教程
转 gguf / turbomind 等格式部署(视情况选择)。LoRA Rank 一般 32/64 起步,结合资源调整。控制单图分辨率上限,别设太大容易炸显存。微调后权重合并:swift export。数据集可用 JSONL,一行一个样本。会自动识别视觉编码器。
2025-08-25 08:00:00
606
原创 qwenvl2.5-3b模型微调
注意:需要将原始模型中的preprocessor_config.json 和chat_template.json拷贝到微调后模型的目录中。执行:python train_qwenvl.py。全参数微调需要更大的显存,因此可能需要降低。学习率通常比 LoRA 更小(例如。可以看出识别结果是对的。
2025-08-18 08:30:00
1379
3
原创 Ubuntu系统使用veracrypt对文件夹进行加密
Veracrypt 中的 PIM 是指 “Personal Iterations Multiplier”,即个人迭代乘数。这是一种增强加密容器密码的方法,用于提高安全性。在创建或挂载加密容器时,Veracrypt 会要求用户输入 PIM 值。这个值用于增强主密码的复杂性,使得破解密码更加困难。选择 1) Normal。选择[1]: AES。随便输入320个字符。
2025-08-05 10:15:45
1104
原创 C++多线程相关
beginthreadex() 和 _endthreadex() 是 C运行时库(CRT) 提供的线程管理函数,用于创建和终止线程,并自动初始化与C运行时相关的资源(如线程局部存储、errno 等)。1. 线程是在thread对象被定义的时候开始执行的,而不是在调用join()函数时才执行的,调用join()函数只是阻塞等待线程结束并回收资源。过小的栈可能导致栈溢出,过大会浪费内存。2. 分离的线程(执行过detach()的线程)会在调用它的线程结束或自己结束时自动释放资源。
2025-07-28 15:35:21
712
原创 Winwos上编译opencv的GPU版本推理yolov8
BUILD_DOCS、BUILD_EXAMPLES、BUILD_PACKAGE、BUILD_TESTS、BUILD_PERF_TESTS、BUILD_opencv_python不打勾(可以不要这部分);在编译选项中进行勾选:BUILD_CUDA_STUBS、OPENCV_DNN_CUDA、WITH_CUDA、OPENCV_ENABLE_NONFREE、build_opencv_world打勾;5.Generating完成后,准备工作就已经完成,接下来就是用vs2019进行编译。
2025-07-25 11:27:47
330
原创 Ubuntu安装docker详细步骤(绝对成功)
/ 0EBFCD88 是公钥的指纹。执行这个命令后,系统会显示与该指纹相关的公钥信息。// 如果输出“Hello from Docker!查看状态:sudo systemctl status docker。开机自启:sudo systemctl enable docker。启动:sudo systemctl start docker。sudo usermod -aG docker 你的登录名。停止:sudo systemctl stop docker。// 先使用命令 sudo -i 进入root用户。
2025-07-22 15:27:32
616
原创 nanoVLM: 简洁、轻量的纯 PyTorch 视觉-语言模型训练代码库
顾名思义,视觉语言模型 (VLM) 是一种处理两种模态的多模态模型: 视觉和文本。这些模型通常以图像和/或文本作为输入,生成文本作为输出。基于对图像和文本 (输入) 的理解来生成文本 (输出) 是一个强大的范式。它支持广泛的应用,从图像字幕生成和目标检测到回答关于视觉内容的问题 (如下表所示)。需要注意的是,nanoVLM 仅专注于视觉问答作为训练目标。
2025-07-04 16:25:28
801
原创 从零训练大模型之数据集清洗
大型语言模型(LLM)的预训练效果在很大程度上取决于训练数据的质量和预处理方法。OpenWebText数据集作为一个广泛使用的公开语料库,为LLM的预训练提供了宝贵的资源。然而,原始的OpenWebText数据集来源于网络抓取,不可避免地包含噪声、冗余信息以及格式不一致等问题。为了训练出高性能的LLM,并为了后续采用字节对编码(BPE)方式构建高效的词表,对OpenWebText数据集进行恰当的清洗至关重要。OpenWebText是一个开源的、旨在复现OpenAI的WebText语料库的数据集。
2025-07-04 16:24:58
853
原创 KL散度:90% 的 RLHF 框架都踩中了这个坑
KL散度是强化学习中常用的正则化措施,用于防止学习策略在训练过程中偏离参考策略太远。在大型语言模型的应用中,KL散度的最小化通常通过构建蒙特卡洛估计来实现,并使用自动微分来计算梯度。文章《On a few pitfalls in KL divergence gradient estimation for RL》探讨在强化学习(Reinforcement Learning, RL)中,特别是在大型语言模型(LLMs)的应用中,KL散度梯度估计实现中的一些常见陷阱。
2025-06-23 14:15:46
826
1
原创 通向高分辨率VLM : 原生动态分辨率
首先我们回顾一下VLM(Vision-Language Model,视觉语言模型)或称为MLLM(Multi-modal Large Language Model,多模态大语言模型)的典型设计范式。以及当前范式下处理高分辨率图像输入时存在的问题。一个最典型的MLLM的pipeline就是LLaVA:把图像resize到一个比较小的正方形,使得可以使用一个固定分辨率的ViT(一般是CLIP预训练模型)去编码视觉特征,并使用MLP connector去连接视觉特征和语言模型,把视觉特征映射后作为LLM的输入。
2025-06-23 09:51:52
923
原创 海思3519AV100上面部署yolov5-shufflenet
由于海思NNIE上transpose支持的顺序是固定的,shufflenet那种x=torch.transpose(x,1,2).contiguous() 的操作一般是不支持的。#[ -1, 1, nn.Upsample, [ None, 2, 'nearest' ] ],修改为。#[ -1, 1, nn.Upsample, [ None, 2, 'nearest' ] ],修改为。将.nn.SiLU()修改为nn.ReLU(),不一定会存在,需要查找下,如果有需要修改下。
2025-06-16 11:33:46
1063
2
原创 多模态处理多分辨率输入有哪些方法?
但这相比传统的ViT方法(无Padding)会更慢(因为为了适配一个Batch中最长的序列,要做适当的Padding处理,导致会有些冗余计算)。传统的ViT会将任何图片数据都处理成定长的Patch序列,然后输入给Vision Encoder,这种统一定长的输入是对硬件计算非常友好的,非常好组Batch,并且不需要任何padding处理。那么一个序列中塞进了多个图像数据,怎么能互不干扰的计算呢(也就是在做ViT的Attention计算时,多个图片的Patch在一个序列中需要做计算隔离)
2025-06-16 11:05:24
524
原创 从经典论文看大模型的技术演进
过去十年间,人工智能领域的大模型取得了飞跃式的发展。从最初的词向量表示,到能够Few-Shot(少样本)学习的千亿参数模型,再到多模态、可调用工具的最新模型,每一阶段的技术创新都推动着AI能力的里程碑式提升。本文将以通俗易懂的方式,通过研究25篇经典论文,沿时间顺序梳理大模型技术演进的关键节点,总结每个阶段具有代表性的经典工作及其里程碑意义。 在深度学习兴起之前,计算机对单词的表示通常是“独热编码”(one-hot)形式,即用一个高维稀疏向量表示单词,无法体现词汇间的语义关系。2013年,Mi
2025-06-16 09:53:16
1240
原创 多阶段 RL(先数学,后代码)训练策略分析与实战启发
尽管在大规模强化学习(RL)用于推理任务方面取得了进展,但构建高性能推理模型的训练方法仍然不明确。现有的前沿模型,如 DeepSeek-R1,通常省略了关键的实现细节,如数据策划策略和 RL 训练方法。此外,对于小型和中型模型,蒸馏(distillation)通常比 RL 更有效。NVIDIA 研究团队推出了 AceReason-Nemotron的研究项目,该项目通过大规模强化学习(Reinforcement Learning, RL)显著提升了小型和中型语言模型在数学和代码推理任务上的表现。
2025-06-09 11:02:41
940
原创 PPO算法流程详解
今天介绍 PPO 流程的时候我也会把这几个区别点作为重点,进行介绍:PPO 多了个 Value Model 和输出 v(value)计算 A(Advantage) 的算法是 GAEKL 散度计算作用于 Reward Model另外,有篇科普 PPO 的文章非常经典,通过把 PPO 算法拆解为 10 个步骤进行了详细地介绍,而且对于一些算法背后的原理也做了解释。
2025-06-09 09:50:53
1708
原创 PPO和GRPO算法
verl 是现在非常火的 rl 框架,而且已经支持了多个 rl 算法(ppo、grpo 等等)。过去对 rl 的理解很粗浅(只知道有好多个角色,有的更新权重,有的不更新),也曾硬着头皮看了一些论文和知乎,依然有很多细节不理解,现在准备跟着 verl 的代码梳理一遍两个著名的 rl 算法,毕竟代码不会隐藏任何细节!虽然 GRPO 算法是基于 PPO 算法改进来的,但是毕竟更简单,所以我先从 GRPO 的流程开始学习,然后再看 PPO。
2025-06-03 14:27:25
1349
原创 InternLM2/LM2.5/ViT/VL1.5/VL2.0笔记: 核心点解析
本文主要是记录一下关于多模态大模型InternLM/InternVL系列的一些要点的理解。还是那句话,好记性,不如烂笔头。本文当成个人笔记用,行文风格和先前写的LLaVA系列一致。本文的重点是讲解多模态模型InternVL 1.5,但是InternVL 1.5选择了InternLM2作为LLM底座,以及使用InternViT-6B作为视觉理解模型。因此,本文也先从InternLM2和InternViT开始讲起。InternLM2和InternViT以简单说明为主。
2025-06-03 11:36:39
1366
原创 爱芯元智芯片推理cn-clip
cnclip_config_npu3_U8.json文件。1.下载依赖的opencv和onnxruntime。打开cmakelist.txt,在开头增加。下载feature_matmul.onnx。2.cmakelist修改。
2025-05-26 18:51:38
1142
原创 为什么要用位置编码?
在 NLP 任务中(后续拓展为多模态任务),顺序信息至关重要,例如: 我借给你 300 块与你借给我 300 块具有完全不同的含义。对于 Transformer 模型来说,由于 Attention 模块的无序性(无法区分不同位置的 Token),必须加入额外的信息来记录顺序,这里引入了位置编码。位置编码在后续基于 Transformer 架构的文章中有很多不同的实现方式,尤其是在大语言模型大行其道的现在,在面对长 token 的输入时,挑选合适的位置编码也会提升训练的效果。
2025-05-26 14:19:29
913
《模式识别与智能计算的MATLAB实现》
2015-01-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅