自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 资源 (1)
  • 收藏
  • 关注

原创 DINO系列:从 DINOv1 到 DINOv3原理详解

在风格迁移(Style Transfer)中我们学过,特征图的 Gram 矩阵(GXXTG = XX^TGXXT)代表了图像的纹理和空间相关性。它描述了不同特征通道之间的共现关系。

2025-12-14 10:23:53 1651

原创 DINO 系列(v1/v2/v3)之三:DINOv3 原理的详细介绍

Axial RoPE(Rotary Positional Embeddings)带 jitter相比绝对位置编码,更适合高分辨率和不同长宽比;使用轴向的 RoPE,并加上位置 jitter,让模型对缩放、裁剪、高分辨率输入更加鲁棒;这也是 DINOv3 能在「只在一个基础分辨率预训练」的前提下,迁移到更高分辨率 dense 任务的原因之一。在输入 token 序列中引入若干个“寄存器 token”;它们不对应具体空间位置,而是作为「全局信息的中转/汇聚点」;

2025-12-03 10:58:15 1718

原创 DINO 系列(v1/v2/v3)之二:DINOv2 原理的详细介绍

DINOv2 这篇工作可以直接理解成:把 DINOv1、iBOT 等一堆自监督技巧「凑成一个最强配方」,然后在「超大干净数据集 + 超大 ViT」上把配方拉满,从而得到一套「啥都能用、跨任务泛化很强」的视觉基础特征(visual foundation features)。本文尽量站在工程实践视角来讲清楚:在第一篇里我们已经说过:DINOv1 的核心是 Student–Teacher 自蒸馏 + 多视角增强:DINOv1 的几个关键现象:DINOv2 的目标可以一句话概括:具体来说,它要同时满足:高性能 &

2025-12-02 21:07:59 2492 1

原创 DINO 系列(v1/v2/v3)之一:DINOv1 原理的详细介绍

DINO 出自 2021 年 ICCV 论文:自监督学习 + ViT 能不能学到高质量表征?这些自监督特征是否具备“涌现属性”(例如自动做物体分割、良好的 kNN 分类性能)?只用无标签图片就能训练出非常强的 ViT 特征;这些特征在 ImageNet 上的线性评估、kNN 分类表现都很强;甚至自监督 ViT 的注意力图天然具有物体级别的分割能力。DINO = 自蒸馏(Self-Distillation with NO labels)。

2025-12-02 16:16:38 1171

原创 DeepSeek-OCR 论文精读与实践:用“光学上下文压缩”把长文本变成图片,再由 VLM 高效还原

研究动机:LLM 处理超长上下文时计算与显存成本会随序列长度急剧上升。DeepSeek-OCR 提出把长文本转为高分辨率图像,再用视觉 token替代海量文本 token,从而显著降低成本。总体架构:一个DeepEncoder(视觉编码器)+ 一个3B MoE 解码器。DeepEncoder 以窗口注意力 + 16×卷积压缩 + 全局注意力串联,既能吃高分辨率,又能把视觉 token 压到很少;解码器负责从少量视觉 token还原出文本/Markdown 等。压缩-精度权衡(来自论文的量化结论):在。

2025-10-30 20:21:56 1235

原创 YOLO-World 全面解析:实时开放词汇目标检测的新范式(附实践指南)

通过前边的 YOLO 检测器和文本编码器分别得到了特征图像和词向量,那么如何实现二者的融合,以达到开放词汇目标检测的目的?YOLO-World 中提出了新的网络架构RepVL-PAN(Re-parameterizable Vision-Language Path Aggregation Network),它通过融合视觉信息和语言信息来提升检测性能并兼顾实时推理。

2025-10-17 16:25:58 1739 1

原创 SAM-SAM2-SAM3系列(三):Segment Anything 3(SAM 3)技术详解,以及SAM3对 SAM2的升级点

定位:延续 “可提示分割(promptable segmentation)”范式,把自然语言(文本)纳入一等公民的提示形式,面向图像与视频的对象分割与跨帧传播/跟踪。多方参会报道明确“支持 text-based prompts状态:Meta 已上线SAM 3 等候/登记页(需登录可见),并在多渠道提及“今年夏天/今夏推出/Coming soon”。目前未见公开论文/代码/权重。Meta AI+1延续:承接SAM 2的视频流式记忆与交互传播思想,在此基础上增加原生文本提示能力,目标是更少交互、更强可用性。

2025-10-11 17:39:14 5014 1

原创 SAM-SAM2-SAM3系列(二):Segment Anything 2(SAM 2)技术详解,以及SAM2对 SAM的升级点

与。

2025-10-11 17:39:06 1540

原创 SAM-SAM2-SAM3系列(一):Segment Anything Model(SAM)技术详解与实战

SAM-SAM2-SAM3系列(一):Segment Anything Model(SAM)技术详解与实战 ----------- 本文SAM-SAM2-SAM3系列(二):Segment Anything 2(SAM 2)技术详解,以及SAM2对 SAM的升级点 ----------- 见后续博客SAM-SAM2-SAM3系列(三):Segment Anything 3(SAM 3)技术详解,以及SAM3对 SAM2的升级点 ----------- 见后续博客。

2025-10-11 17:38:58 1787

原创 Qwen3-Max 全面解析:万亿参数、36T 语料、256K 长上下文与工程落地指南

Qwen2.5 ~18T → Qwen3 ~36T(翻倍),加入更多“PDF/长文档”结构化抽取与清洗,长文理解显著增强。当你需要让模型读“多文件需求/设计文档/长会议转写/代码库片段”时,256K 长上下文极大减少切分与拼接成本。:手动创建缓存(5 分钟有效期等),后续命中成本更低,适合 Agent/多轮/长文档工作流。:官方提供 Qwen3-Embedding(0.6B/4B/8B)等多规格,用于检索与重排。:256K 不是“把所有资料都扔进去”,应做摘要/检索与缓存策略,否则成本和延迟都会爆炸。

2025-10-11 14:40:33 1841

原创 FlashAttention 原理与工程实践:从 IO-aware 到 H100 上的 1 PFLOPs/s

FlashAttention 用“IO-aware + 在线 softmax + GPU 友好分块”把“精确注意力”跑得又快又省显存;FA2 把核效率推近 GEMM;FA3 借助 Hopper 新特性把注意力推到。在 PyTorch 中用 SDPA 即可“一键吃到”这套加速,在大多数长上下文场景里是必开的基础设施级优化。arXiv+1。

2025-10-10 11:00:23 1227

原创 Vision-Language-Action(VLA)技术全解析:从原理到落地

VLM ≠ VLA:三种典型范式与边界通用系统架构:感知-表征-决策-执行动作空间建模:离散/连续/扩散/混合训练范式:从大规模预训练到少样本迁移数据与标注:episode 格式、对齐与质量控制推理与部署:实时性、缓存、ROS/MoveIt/机械臂适配评测与安全:成功率、稳健性、越界与保护实战 Demo A:基于行为克隆的最小 VLA 训练与推理(PyTorch)实战 Demo B:用 LoRA/PEFT 快速微调开源 VLA(以 OpenVLA 为例)

2025-10-09 15:36:07 1714

原创 Qwen3-VL 全面解析:从 Qwen2-VL → Qwen2.5-VL → Qwen3-VL 的三代进化

是目前 Qwen 家族最强的视觉-语言模型,支持,上下文长度,视频理解更强,更稳,OCR 扩到;适合复杂多模态工作流与视频/长文档检索总结。在 2 代基础上大幅增强等能力;开源有等尺寸可选,并提供。的核心创新是与,统一处理,提供尺寸,奠定了后续系列的高分辨率与视频建模底座。

2025-10-09 12:16:32 7354

原创 YOLO26 详解:面向边缘与低功耗的端到端(NMS‑free)目标检测新范式

YOLO26 把“简化工程 + 提升小目标 + 端到端 NMS‑free”一次性做到了位。对于需要多路实时与边缘低功耗的行业(交通、安防、机器人、制造等),它不仅是一次算法升级,更是部署范式的升级。等官方权重发布后,你可以把它作为团队的“新默认基线”,在相同硬件预算下做出更干净、延迟更低的系统。

2025-10-09 12:09:14 2004 1

原创 (RAG)为什么需要 RAG:LLM 的局限性

介绍了llm存在痛点,对应的分析了rag的相关优势

2025-07-23 13:35:38 341

原创 RAG 评估指标:Retrieval、Generation 与端到端质量衡量

RAG(检索增强生成)不仅要回答“生成得好不好”,还要回答“检索得准不准”。任一环节掉链子,最终答案都会失真。因此业界常将 检索器(R) 与 生成器(G) 分别度量,再用端到端指标把关整体体验。

2025-07-23 09:14:52 876

原创 vLLM 原理深度解析(PagedAttention , Continuous Batching等)、vLLM代码Qwen实战

对vLLM 原理详细解析,包括PagedAttention , Continuous Batching等模块的解读,并附录了vLLM代码Qwen实战案例。

2025-07-14 16:45:31 1502

原创 LoRA 原理图文详解、基于 ms-swift 的 Qwen 系列模型轻量级LoRA微调实战

通过图文描述详细介绍了LoRA的原理,深入浅出易于理解。在介绍原理的基础上,基于ms-swift对qwen2-7b的LoRA微调案例进行了介绍。

2025-07-14 14:56:44 1547

原创 思维链COT(Chain-of-Thought)全解析:原理、范式、写法与实战案例。

本文系统解析思维链(Chain-of-Thought, CoT):将“显式展示推理步骤”作为提示与训练范式,解释其通过减少跳步错误、对齐解释性语料分布、便于验证与工具插入来显著提升逻辑/数学/多步规划能力的机理;梳理 Zero-shot、Few-shot、自一致(Self-Consistency)、ReAct、Tree-of-Thought 等主流扩展;

2025-07-14 13:55:09 3721

原创 【手把手从零实现】Qwen2.5-VL:环境配置/功能实验(图片识别理解、目标检测、文字OCR、文档解析、视频理解)/模型微调(MS-Swift 和 LLaMA-Factory)

Qwen2.5-VL(阿里通义千问最新视觉语言家族)在 图像理解、检测框、OCR、表格解析、视频理解 等方面给出“开箱即用”的接口,3B 模型就很能打。本博客介绍Qwen2.5-vl的使用和微调等。

2025-07-14 11:13:44 8201 1

原创 yolov12介绍(Area Attention,R‑ELAN,FlashAttention‑Driven,DFL v2详解)

介绍yolov12模型,解析yolov12的核心模块:Area Attention,R‑ELAN,FlashAttention‑Driven,DFL v2等等。

2025-07-11 13:36:27 859

原创 Ultralytics 家族(yolov5/yolov8/yolov11)介绍之三:yolov11详解 (yolov11与yolov8对比介绍,详解C2PSA模块和C3k2模块)

YOLO11 是 Ultralytics 于 2024 年下半年发布的最新一代多任务视觉模型。它在保持 YOLOv8 基本架构的同时,通过 C3k2 轻量残块、C2PSA 空间注意力 等新组件,实现更高map和更快推理速度。

2025-07-11 13:35:41 1944

原创 Ultralytics 家族(yolov5/yolov8/yolov11)介绍之二:yolov8详解

备注:准备梳理 Ultralytics 家族的 YOLOv5 → YOLOv8 → YOLO11的演进脉络,本文主要介绍yolov8,同时对yolov5和yolov8两个版本进行对比分析。

2025-07-11 13:34:44 1141

原创 Ultralytics 家族(yolov5/yolov8/yolov11)介绍之一:yolov5详解(后续会对比介绍v8和v11)

准备梳理 Ultralytics 家族的 YOLOv5 → YOLOv8 → YOLO11的演进脉络,首先介绍yolov5。

2025-07-11 13:33:40 1379

原创 目标检测四:Transformer 检测模型详解(DETR 系列)

基于 Transformer 的检测模型,以 DETR(Detection Transformer) 为起点,梳理其核心思想、代表改进(Deformable/Conditional/DAB/DN/Anchor/Group/RT-DETR 等)以及工程实践。

2025-07-11 13:32:32 1230

原创 目标检测三:YOLO 系列纵览(v1–v13)

yolo系列:从yolov1到yolov13。

2025-07-11 13:31:08 1330

原创 目标检测二:RCNN 系列详解

RCNN系列详细解读

2025-07-11 13:27:57 241

原创 目标检测一:“它是什么”,“它能做什么”

本文系统梳理目标检测:定义其为“分类+定位”的组合任务,解释与分类、语义/实例分割的差异;说明典型输出格式与坐标规范;概述主流数据集与标注方式;讲解IoU、mAP等评估指标及速度要求;按时代回顾从传统特征、两阶段/单阶段、Anchor‑Free到Transformer与多模态大模型的技术演进;从阶段、锚框、骨干、监督信号与场景五个维度给出算法流派全景;最后指出长尾、小目标、遮挡、实时性、开放词汇与端到端等挑战与趋势,并为后续RCNN、YOLO、DETR专题做铺垫。

2025-07-11 13:27:08 323

原创 多模态大模型:CLIP、ALBEF、BLIP、BLIP-2、GLIP、GroundingDINO

对CLIP、ALBEF、BLIP、BLIP-2、GLIP、GroundingDINO等模型进行概括性介绍

2023-12-11 19:35:34 1241

原创 OCR 分割流派小模型 :PSENet、PAN、DBNet

本文聚焦于“分割(Segmentation-based)”思路的场景文本检测,主要介绍psenet、panet、dbnet等模型。

2021-09-26 11:18:21 385

原创 (附完整python源码)基于tensorflow、opencv的入门案例_发票识别三:发票数据集制作和cnn网络训练

1.字符分割2.字符识别

2018-05-14 20:17:29 12193 20

原创 (附完整python源码)基于tensorflow、opencv的入门案例_发票识别二:字符分割

11

2018-05-14 20:16:27 7091 8

原创 (附完整python源码)基于tensorflow、opencv的入门案例_发票识别一:关键区域定位

分为两篇博客:发票识别一、发票识别二1.发票识别一:1.1从一张发票照片精确“发票号码”、“发票代码”所在区域2.发票识别二:    将发票代码分割成单个数字,然后用神经网络进行逐个识别...

2018-05-11 21:26:59 25790 6

原创 传统cv目标检测---rcnn系列---yolov1和v2---ssd

本文梳理目标检测算法发展脉络,从传统计算机视觉时期的滑动窗口方法,过渡到深度学习时代的重要演进。内容涵盖R-CNN系列模型带来的突破,以及随后提出的高效框架如SSD与Yolo系列。

2018-05-10 17:58:33 4286

原创 (python源码)小案例:归一化_零均值的作用

归一化_零均值的作用1.通过一个简单的小案例讲解下,为什么归一化后,训练速度会增加。2. 案例很简单,将蓝色的小正方行通过旋转、缩放后变换为红色正方形。变量(Variable):旋转角度angle_、缩放系数scale_。3.直接上图,说出迭代的结论3.1 下面两幅图为“变量与loss的关系图”,一系列的黑点代表变量的迭代过程,一个红点代表最优loss位置。3.2 该图表示“没有进行归一化”,  ...

2018-04-28 21:23:26 3862

原创 (C++源码,详细注解)pso粒子群算法的调参技巧及改进方法

粒子群算法的调参技巧及改进方法C++源码实现1 基本粒子群算法简单介绍1.1 粒子群算法( Particle Swarm Optimization, PSO)是一种典型的群体智能算法。最早是由美国心理学家Eberhart和电气工程师Kennedy于1995年提出,是一种模拟鸟类群体觅食行为的仿生智能计算方法。鸟群在整个搜寻的过程中,通过相互传递各自的信息,让其他的鸟知道自己的位置,同时也将最优解的...

2018-04-27 14:42:34 7219 6

原创 (python源码,详细注解 )多目标粒子群算法 mopso

1 本代码功能用多目标粒子群算法(mopso)寻找pareto最优解集2 算法介绍2.1 简单步骤:(1)初始化群体粒子群的位置和速度,计算适应值(2)根据pareto支配原则,计算得到Archive 集(存放当前的非劣解)(3)计算pbest(4)计算Archive集中的拥挤度(5)在Archive集选择gbest(6)更新粒子的速度、位置、适应值(7)更新Archive集(还要注意防止溢出)(...

2018-04-07 18:51:34 51240 72

mopso多目标粒子群算法 python源码

mopso多目标粒子群算法 python源码 粒子群速度位置更新 pareto最优解集 外部存档 拥挤度计算

2018-04-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除