自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(87)
  • 收藏
  • 关注

原创 FunctionCall的演化之路

你有没有这种感觉 ——AI 领域的新名词,比手机型号更新还快?昨天刚搞懂「函数调用」(Function Calling) 是怎么回事,今天又冒出来个「Skills」。前天有人跟你说「MCP」,你还没反应过来,后天又有人聊「Agent」。每次看到这些词,第一反应都是:我是不是又落伍了?别慌。今天咱们把「Claude Skills」这事儿掰开揉碎了讲清楚。更重要的是,我会告诉你它跟你已经知道的那些概念 —— 函数、函数调用 —— 到底是什么关系。你会发现,这不是三个孤立的新词,而是一层一层往上搭的台阶。

2026-01-12 09:51:41 799

原创 YOLOV11&DFINE适配RK3588(瑞芯微)

开发板官方固件自带RKNPU2驱动,使用以下命令查询检查RKNPU2是否安装RKNN-Toolkit2 的连板调试功能要求板端已安装 RKNPU2 环境,并且启动 rknn_server 服务。以下是 RKNPU2 环境中的两个基本概念:RKNPU2更新确保 rknn_server 和 librknnrt.so 与 rknn_toolkit2 版本一致下载更新可参考 RKNPU2更新将模型设置到性能模式定频命令参考: https://github.com/airockchip/rkn

2026-01-05 17:00:36 939

原创 SAM3解读 && paddle-3.0框架的适配

三个文件共同构成了 SAM3 从 PyTorch 到 PaddlePaddle 转换的核心流水线。由于文本编码器(Text Encoder)结构在自动转换中极易出错,该文件专门负责**“手动迁移文本模块权重”**。的混合策略,以应对 SAM3 模型中复杂的算子和多模态结构。它的任务是**“改造并导出”**:利用。生成的 Paddle 动态图代码导出为生产环境可用的静态图模型。这是流水线的最后一步,任务是**“固化为推理格式”**:将。:把一张任意大小的 JPG 图片变成标准的模型输入张量。

2026-01-05 16:50:14 803

原创 DINOV3-YOLOV12 解读

仅在YOLOv12的一个关键层级注入DINOv3特征,适用于计算资源极度受限(如边缘设备Jetson AGX Orin)、或数据集极小规模(<1K图像)且需简化模型复杂度的场景。实验表明,其性能提升温和(+1.2%~+3.0% mAP@0.5),但稳定性优于随机初始化。在YOLOv12的两个关键层级。

2026-01-05 16:39:00 827

原创 RoPE机制

Rope(旋转位置编码)针对传统Transformer位置编码的两大缺陷——相对位置感知不足和长度外推性差——提出创新解决方案。它通过旋转词向量而非添加位置向量的方式,使注意力分数天然包含相对位置信息,无需额外学习。同时,其连续的旋转操作支持无限长度外推,预训练模型可直接处理更长的序列。该方法无需增加参数,计算高效,可无缝集成到现有架构中。Rope的核心在于将高维向量拆分为复数对进行独立旋转,这种数学构造既保持了原始信息,又简化了计算,实现了位置感知与长度扩展的平衡。

2026-01-05 16:32:22 662

原创 边缘端侧量化算法(海思、瑞芯微等)

适用于追求快速部署、无需模型再训练、对精度损失有一定容忍度的场景。KL 量化在大多数复杂模型中表现更通用、鲁棒。MMSE 量化在数据分布规整、追求单一数值精度时可能更优。QAT适用于追求极致量化精度、PTQ 无法满足需求、且具备训练资源和数据的场景。在瑞芯微的硬件平台上进行模型部署时,通常会结合使用这些量化技术,以在性能和精度之间取得最佳平衡。理解这些算法的原理,有助于开发者根据具体模型和应用需求做出明智的选择。

2025-11-24 14:59:38 648

转载 如何判断是Prompt写的不够好,还是基座能力不达标

大模型的能力确实越来越强,像 LongCat-Flash 这样的 MoE 模型,在激活参数仅 27B 的情况下,就能在 agentic 任务上超越 GPT-4.1。这意味着,很多你以为需要微调的问题,其实只是 prompt 没写对。在动手微调之前,请先穷尽 prompt 工程、RAG、CoT 等“零训练成本”的手段。只有当这些方法都失效,且你有足够数据和明确需求时,微调才是最优解。毕竟,最好的微调,是不用微调。

2025-11-07 17:24:29 69

原创 KV-Cache 理解

在大模型(LLM)的推理过程中,缓存(Caching)是一种关键的优化技术,其中KV-cache(键-值缓存)是核心。之所以可以缓存Key(K)和Value(V),而不能缓存Query(Q),其根本原因在于自注意力机制(Self-Attention)在自回归生成(Autoregressive Generation)过程中的计算方式。

2025-10-31 11:40:35 554

原创 双目测距实战4-自标定

几何上,两个相机光心和空间点P必然共面。代数上,这个共面关系可以用向量的标量三重积等于0来表示。通过矩阵变换,这个标量三重积可以优雅地写成的形式,其中本质矩阵E封装了相机的旋转R和平移T。再通过相机内参 K将不可直接观测的3D坐标P替换为可直接观测的2D像素坐标p,最终得到了,其中基础矩阵F封装了两个相机的全部几何信息(内外参数)。所以,这个简洁的方程,是双目视觉底层几何原理的完美代数体现。

2025-10-24 09:19:04 752

原创 双目测距3-立体匹配

【立体匹配算法研究综述】 立体匹配是从双目图像重建3D场景的关键技术。传统算法(如SAD)通过局部窗口匹配计算视差,但易受重复纹理干扰。深度学习算法分为稀疏和稠密匹配两类,其中: SGBM采用半全局优化策略,通过多方向代价累积提升弱纹理区域的鲁棒性,但参数敏感且泛化能力有限。 RAFT-Stereo创新性地使用GRU循环架构迭代优化视差,通过多级相关性金字塔实现全局信息传播,在无纹理区域表现优异,但计算成本较高。 iRaftStereo提出混合多数据集训练策略,显著提升模型泛化能力,在工业挑战赛中验证了数据

2025-10-22 17:43:44 849

原创 双目测距实战5-立体矫正

为了实现几何上最精确、最理想的立体矫正(如课件中描述的流程),前提条件是需要知道两个相机的内参。即使完全不知道内外参数,也有一种方法可以进行矫正,尽管其结果在几何意义上不那么“纯粹”。

2025-10-22 16:36:37 1143

原创 大模型应用比赛-表格知识挑战赛总结

运用大模型开展数据分析,模型能够给予给定的表格数据,结合表格内容回答问题。

2025-10-10 19:48:32 385

原创 提示工程的进阶-上下文工程学习

大语言模型的性能和效果从根本上取决与他们所接收的上下文,从简单的提示词到复杂的外部知识库,是引导其行为、扩充其知识并释放其能力的主要机制,随着大预言模型从基本的指令跟随发展成为复杂应用的核心推理引擎,设计和管理其信息负载也相应的成为一门正式的学科–上下文工程。上下文工程包含三个关键阶段:上下文检索与生成,包含基于提示词的生成和外部知识获取,上下文处理,设计长序列处理、自我优化机制和结构化信息整合。以及上下文管理,涵盖内存层次、压缩技术和优化策略。

2025-10-10 19:46:04 283

原创 WeKnora

WeKora是一个企业级RAG框架,采用模块化设计实现智能文档处理。其工作流程包含文档插入、知识提取、索引、检索和生成五个步骤,支持多种检索方法。系统通过问题改写和预处理精准理解用户意图,结合向量与关键词混合检索获取相关信息,最后利用大语言模型生成回答。文档解析模块作为独立微服务,通过gRPC实现多进程、多线程处理,支持多种文件格式解析和智能分块,为后续处理提供结构化数据支持。该框架特别注重生产环境可用性,具备完整的异步处理流程和实时流式输出能力。

2025-10-10 19:37:05 1197

原创 Ovis多模态大模型

用于推理: 如果你只想加载模型进行推理,你主要关心的是第1和第2类的文件。会自动处理这些文件。用于恢复训练: 如果你想从这个检查点继续训练,那么第3和第4类的文件就至关重要了。Trainer和DeepSpeed会读取它们来恢复到和训练中断时一模一样的状态。关键区别: 这个目录是一个训练过程中的快照,而不仅仅是最终模型。它包含了“大脑”(模型权重)和“记忆”(训练状态),以便随时可以“醒来”继续学习。策略优点缺点适用场景只训练最上层计算成本低、速度快、有效防止灾难性遗忘、保留通用能力。

2025-10-10 19:35:04 1063

原创 双目测距实战2-相机标定过程

我们需要多组这样的点,可以手动点也可以通过图像处理技术获取(黑白角点识别),通过不同角度和位置拍摄多张标定板的图像,得到是一组3D和2D的对应点。所以立体匹配很重要,通过立体匹配可以计算出视差图,视差图就是两两匹配坐标的X轴差异,有了视差图,就可以做3D坐标估计。内参:相机自身属性,一旦出厂基本固定,它描述了相机坐标系中的三维坐标点如何投影到图像的二维像素坐标系。所以这里的重点是,在图像上找到对应的点!利用这些匹配对,通过特定的数学算法(张正友标定法)就可以解一个方程组,从而计算出相机的各项参数。

2025-10-10 19:28:05 662

原创 双目测距实战1-环境配置

现在你已经拥有一个功能完备的、基于 VS Code 和 MinGW-w64 的 OpenCV C++ 开发环境了。关系就是:MSYS2 是一个“汽车工厂”,而 MinGW-w64 是这个工厂生产和使用的“引擎”。MSYS2 是一个在 Windows 上的软件分发和构建平台,它提供了一个强大的包管理器。等命令和 OpenCV 运行时所需的 DLL 文件,需要将 MinGW-w64 的。这种方法可以避免很多手动配置的麻烦和编译器不兼容的问题。相同的编译器编译的,避免了库不兼容的问题。它就像汽车的“引擎”。

2025-10-10 19:27:33 1000

原创 双目测距-初识

双目测距流程1 相机标定(获取内外参数)2 双目矫正(矫正镜头变形图像)3 双目立体匹配(视差图)4 计算深度信息(深度图)5 计算距离其中立体匹配是整个流程中比较重要的一环,往往在这里做研究和优化。

2025-10-10 19:25:18 1167

原创 NVIDIA驱动、CUDA以及PyTorch版本之间的关系

驱动与 CUDA 版本匹配正确:你的驱动支持最高 CUDA 11.7,可放心使用 11.x 系列的 Toolkit。PyTorch 兼容性:基于 CUDA 11.3 编译的 PyTorch 可尝试安装 CUDA 11.4 Toolkit,理论上可行,但需:确认 PyTorch 官方对 CUDA 11.4 的支持;确保 cuDNN 版本匹配;验证环境变量配置正确。风险提示:若运行时出现库文件缺失(如版本不匹配),可能需要重新编译 PyTorch 或降级 CUDA Toolkit。

2025-06-16 13:33:26 3086

原创 目标检测任务标注格式详细对比

这是一个非常核心且重要的问题。理解这三种主流标注格式的区别,对于进行目标检测任务至关重要。我将通过一个和来帮助你彻底弄懂它们。

2025-06-13 19:00:59 1742

原创 YOLOV11 中的 DFL Loss解读

DFL通过概率分布优雅地表达了物体边界的模糊性和不确定性。最终通过积分得到的坐标比单一的回归值更鲁棒、更精确。相比于只提供一个目标值,DFL提供了关于整个分布的监督信号,这有助于模型更快、更好地收敛。DFL将回归问题在形式上转化为了类似分类的问题(都使用交叉熵损失),这让整个模型的架构和学习过程更加和谐统一。整个过程(包括离散化和积分)都是可微分的,可以无缝地集成到任何神经网络中进行端到端训练。在YOLOv8等模型中,最终的边界框损失是由DFL Loss和CIoU Loss共同组成的。

2025-06-13 16:37:37 3669

原创 理解目标检测模型中的矩形训练rect参数

这是一个非常核心且重要的问题,它能帮助您彻底理解 rect=True 的价值所在。如果不开启 rect(即 rect=False),当模型接收到一张 1137 x 799 的图片并要将其处理成 imgsz=640 时,它会执行以下**“保持比例缩放并填充”(Letterboxing)**的操作。

2025-06-13 11:42:42 1533 2

原创 用数据说话,为你的YOLO模型选择一个合适的起点

必做:运行分析脚本,获取你数据集的尺寸分布和宽高比分布。首选策略查看宽高比直方图。如果有一个非常明显的峰值(比如 1.5),说明你的数据形状很统一。查看统计摘要,找到宽和高的中位数将这两个中位数尺寸向上取整到32的倍数,得到一个矩形尺寸,例如 (w, h)。在训练时使用这个尺寸,并开启矩形训练 (--rect)。例如:python train.py --img-size 640 --rect (这里640指最长边) 或者在新版YOLO中直接指定 imgsz=[w, h]。

2025-06-12 17:29:26 1010

原创 SGD 、 AdamW 该如何选择?

**每个参数都有自己的学习率**:更厉害的是,他的地形探测仪是针对**每一个维度(参数)**的。| **泛化能力** | 有时**更好**。| **学习率** | **固定**(或手动调整),对初始值非常敏感。2. **迈出固定一步**:他会朝着最陡的下坡方向,迈出**固定长度的一步**(这个步长就是**学习率 Learning Rate**)。1. **原地感受坡度**:他伸出脚,在**一小片区域**(一个 mini-batch 的数据)内感受地面哪个方向是向下的(计算梯度)。

2025-06-12 16:04:40 421

原创 D-FINE详细解读

在介绍D-FINE之前,回顾下YOLO模型的预测过程,具体可参考上篇博文。想象一下,你的任务是在一张人山人海的合影里,把每个人都用方框圈出来。先说说大家更熟悉的 YOLO 系列(以它经典的思路为例)YOLO 的工作方式,就像一个急性子、眼神超好的“撒网捕鱼者”。划分网格(撒下一张大网):YOLO 先把整张照片划分成很多个小格子,比如 13x13 或者 26x26 的网格。这张网撒下去,覆盖了整个图片。每个网格快速上报(每个网眼都报告):每个小格子都像一个“小侦察兵”,它只负责自己这片区域。它会快速判断:“我

2025-06-10 15:50:12 1977 2

原创 小目标、狭长目标检测的一些优化方法

可以增加一个更早、分辨率更高的特征层(如 P2,下采样 4 倍)用于检测非常小的目标。调整非极大值抑制 (NMS) 的 IoU 阈值 (--iou-thres),如果小目标密集,可能需要更小的 IoU 阈值来区分它们。调整损失函数中不同部分的权重,例如适当提高小目标样本的损失权重,或者提高 Objectness Loss 的权重(如果小目标容易被误判为背景)。需要一定的模型结构理解。使用在大型数据集(如 COCO)上预训练的权重作为起点,然后在你自己的包含大量小目标的数据集上进行长时间、充分的微调。

2025-04-16 09:06:20 1787

原创 从TRPO到GRPO

在 LLM 的情况下,策略会在每个步骤中输出可能标记的概率分布:简而言之,这就是模型用来采样下一个要生成的标记的内容。在本文中,我们将重点介绍强化学习 (RL) 方面的内容:我们将介绍 TRPO、PPO 以及最近的 GRPO(别担心,我很快就会解释所有这些术语!其目标是使用我们获得的奖励来预测我们采取的每个动作(模型生成的每个标记)的价值(请记住,该价值应代表预期的累积奖励)。即使在实践中,奖励模型通常源自策略(仅训练“头部”),但我们最终仍需要维护许多模型并处理多个训练程序(策略、奖励、价值模型)。

2025-03-31 17:31:57 796

原创 一文讲清DeepSeeK R1 的来龙去脉(无公式版)

此步骤是最耗费时间、计算资源的一个环节,通常需要上千万美元,几月的时间训练完成,涉及到大规模分布式训练的工程技术,因此,一般只有大厂才能训。其次,在SFT阶段,需要人大量编写理想的回应,但是一些创造性工作就难以写,相比之下,RLHF不需要写,只需要order,这个就比较简单。此过程可以理解为微调模型,提高模型的泛化能力,其核心思想就是在给定答案的基础上,让模型练习,找到最佳解决方案,这就是RL的训练的核心思想,非常简单。人类给出好笑的等级,让模型自己打分,然后建立损失函数,优化“奖励模型”。

2025-03-20 17:14:29 1152

原创 大模型常见依赖库的安装问题汇总

如果上下文(Token)很长的话,QK计算会呈平方式增长,f为了加速QKV计算的算法,主要原理是通过某种方式将本来在VRAM(显存)挪到更快SRAM中计算,安装时需要事先安装CUDA ToolKit,安装方式如下参看repo。Note:我自己测试中发现,我在已经安装完CUDA ToolKits=11.8的情况下,直接使用命令,会自动下载cuda12的运行库,如下图。,从torch2.0后,在安装时会自动安装nvidia runtime,避免用户手动安装 CUDA ToolKits和配置环境变量。

2024-10-31 16:56:42 1080 3

原创 YOLO原理,看这一篇就够了

正如我上面所解释的,边界框的处理在 CPU 上运行,而不是在 GPU 上运行。事实证明,大多数这些框的置信度分数非常低,因此我们只保留最终分数为 30% 或更高的框(您可以根据您希望检测器的准确度更改此阈值)。然后您需要做的就是计算边界框的最终分数,并丢弃分数低于 30% 的分数。回想一下,卷积网络的输出是一个 13×13×125 张量:覆盖在图像上的网格中的每个单元都有 125 个数据通道。我感兴趣的一件事是采用不同的网络架构,例如 SqueezeNet,并重新训练该网络以预测其最后一层的边界框。

2024-05-17 14:28:24 8056 2

原创 Qwen-VL 技术报告总结

权重分为 Qwen-VL && Qwen-VL-Chat,区别文档稍后介绍。

2024-02-02 17:18:54 2738 1

原创 VSCode 分布式Debug 参数设置说明

如果想在vscode中debug一个项目,比如python3 run.py --args。这个时候你需要着重关注几个参数。

2024-01-23 15:06:58 1192 1

原创 T-SNE的详细介绍

t-sne被称为非线性降维,这意味着允许我们分离任何不能用直线分离的数据。主要用于理解高维数据并将其投影到低维空间(2D或3D),使得它在处理CNN网络时非常有用。

2023-11-10 14:29:19 230

原创 Docker运维命令大全

nvidia-docker 2.0 的核心东西是nvidia-contained-runtime,它主要通过修改docker的配置文件/etc/docker/daemon.json来让docker使用NVIDIAContainerRuntime。如你安装完nvidia-docker2,deamon.json 内容如下,确保本地部署的模型在GPU上正确运行。示例:docker run --runtime nvidia my_image。属于特定的厂商产品,需要特定的。的时候,你需要做的有两件事。

2023-10-19 10:57:19 652

原创 GitHub新手使用详细教程

-----------------------------------------------------------同步guthub仓库中的代码----------------------------------------------------------------------------------------------将本地修改文件同步到远程github仓库------------------: 如果其他人在您上次拉取或克隆之后对仓库进行了更改,您需要将这些更改拉取到您的本地仓库。

2023-10-09 16:46:44 1435

原创 GitHub提示Permission denied (publickey)解决方法

如果问题仍然存在,请确保您已按照所有指示进行,并查看GitHub的官方文档或寻求社区帮助。当GitHub提示“Permission denied (publickey)”错误,这通常意味着您的SSH密钥没有被正确地配置。文件,并复制其内容。然后,转到GitHub的设置页面,在“SSH and GPG keys”部分添加一个新的SSH密钥,并将复制的公钥内容粘贴到提供的文本框中。如果一切正常,您应该看到一条消息,表示您已成功地连接到GitHub。(或相应的名称,如您选择的其他名称或类型)。

2023-10-09 16:07:54 2852

原创 常见多模态大模型微调踩坑记录

1 为了避免纯文本训练和图像指令训练的干扰,视觉token 只在语言模型的最开始几层Transformer Block 添加 + prefix adpter + 语言token ,3 将视觉模型输入改为448*448, 同时微调vit第一个卷积层+视觉投影层部分参数+微调语言部分。2 解锁更多训练参数,将 llama 层的 linear中的bias +归一化层参与训练。2 将视觉模型输入改为448*448, 同时微调视觉投影层部分参数并微调语言部分。实测效果:知识可以注入,效果也比较好。

2023-09-25 16:53:16 583

原创 docker 内的nginx 安全漏洞平滑更新参考

打补丁比较麻烦,根据补丁提示升级nginx 到指定版本。

2023-07-19 13:53:45 839

原创 Self-Attention && Cross-Attention 区别

为什么是512*512?人们常说,Transformer不能超过512,否则硬件很难支撑;从输入输出角度,N个Transformer Encoder block中的第一个Encoder block的输入为一组向量 X = (Embedding + Positional Embedding),向量维度通常为512*512,其他N个TransformerEncoder block的输入为上一个 Transformer Encoder block的输出,输出向量的维度也为512*512(输入输出大小相同)。

2023-07-10 17:08:59 1924

原创 t-sne swin-transformer actionclip 模型总结

2023-02-15-总结

2023-02-15 16:34:53 628

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除