自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mingo_敏

计算机视觉和模式识别,深度学习

  • 博客(818)
  • 资源 (13)
  • 收藏
  • 关注

转载 PyTorch Cookbook(常用代码段整理合集)

本文代码基于PyTorch 1.0版本,需要用到以下包import collectionsimport osimport shutilimport tqdmimport numpy as npimport PIL.Imageimport torchimport torchvision1 基础配置1-1 检查PyTorch版本torch.__version__ ...

2019-04-27 15:58:29 3325 4

原创 Linux常见命令汇总

Linux下统计当前文件夹下的文件个数、目录个数统计当前文件夹下文件的个数,包括子文件夹里的ls -lR|grep "^-"|wc -l统计文件夹下目录的个数,包括子文件夹里的ls -lR|grep "^d"|wc -l统计当前文件夹下文件的个数ls -l |grep "^-&quot

2018-12-06 11:08:08 1843 11

原创 本博客目录及版权申明

【C++ Primer 学习笔记】系列:第一部分 基本语言第二部分 容器和算法 【C++ Primer 学习笔记】: 容器和算法之【顺序容器】 【C++ Primer 学习笔记】: 容器和算法之【关联容器】 【C++ Primer 学习笔记】: 容器和算法之【泛型算法】第三部分 类和数据抽象第四部分 面向对象编程与泛型算法第五部分 高级主题【Java: 23种设计模式】系列 Java: 23

2015-11-25 17:37:30 1731 1

原创 深度学习论文: MM-LLMs: Recent Advances in MultiModal Large Language Models

传统多模态模型从零训练,算力成本高昂,且不具备大语言模型(LLM)的零样本泛化、上下文学习(ICL)、思维链(CoT)与指令跟随等涌现能力,训练流程也仅限于预训练阶段,缺少指令微调。多模态大语言模型(MM-LLMs)复用已有单模态基座模型(视觉/音频编码器与LLM),以LLM为认知核心,通过轻量跨模态对齐框架融合多模态信息,在显著降低训练开销的同时,完整继承LLM的推理与生成优势。早期(理解为主)

2026-07-03 16:39:03 99

原创 Google官方12种AI Agent设计模式全解析|生产环境选型指南(2026最新)

Google Cloud发布12种AI Agent设计模式,覆盖单Agent、多Agent协作、循环迭代等全场景,帮助开发者高效构建智能体系统。核心建议包括:优先单Agent简化架构,固定流程用顺序/并行模式,动态任务采用协调器或分层拆解,高风险场景必须人工介入,并警惕Swarm模式的高成本与失控风险。提供选型决策流程图和简化口诀,强调克制设计、循环上限和上下文优化等落地原则。适用于LangChain等框架开发者,平衡性能、成本与复杂性。

2026-07-03 10:56:55 8

原创 Multi-Agent多智能体完整详解:架构、协作模式、落地选型与实战步骤

摘要: 多智能体(Multi-Agent)系统通过角色分工与协同配合解决单智能体难以处理的复杂任务,突破能力边界并提升效率。其核心要素包括角色定义、通信机制、协作模式等,并支持中心化管理、对等协作等多种协作方式。实际应用中,多智能体可高效完成如市场调研报告等长链路任务,但面临成本高、调试复杂等挑战。主流开源框架如AutoGen、CrewAI等为开发提供支持。未来,多智能体将成为企业级AI系统的关键发展方向,需平衡效率、成本与可控性以实现最佳落地效果。

2026-07-02 16:53:51 441

原创 Workflow 工作流与 Agent 智能体深度对比:选型场景、架构原理与混合落地方案

文章摘要: Workflow和Agent是大模型落地的两种主流任务编排方案,二者存在本质区别:Workflow是规则驱动的固定流程执行,适合标准化任务;Agent则是目标驱动的自主决策系统,擅长处理复杂多变场景。文章通过多维度对比表格、架构模式解析和实战案例(市场调研报告),清晰划分了两者的适用边界:Workflow适用于流程固定、成本敏感的场景,Agent更适合需要灵活推理的开放任务。最终提出生产环境最佳实践——混合架构方案,建议用Workflow保障系统稳定性,用Agent提升智能上限,二者协同实现商用

2026-07-02 15:52:56 470

原创 智能体设计范式:Reflection

摘要:Reflection(反思)是一种智能体设计范式,通过让模型在生成初步答案后进行自我评价和修正,提升回答质量。其核心流程包括初始回答生成、反思批评和改进答案三个步骤,可迭代进行。该方法适用于对准确性要求高的场景(如法律、医学),能减少事实错误和逻辑漏洞,但会增加计算成本且可能无法彻底纠正错误。文中提供了Python实现示例,展示了如何通过多轮"生成-反思-改进"循环优化答案质量。

2026-07-01 20:07:47 252

原创 智能体设计范式:Plan-and-Solve

认为直接单步推理容易遗漏或出错,更好的做法是先让模型生成一个完成任务的步骤计划,然后逐步执行该计划,每步可以调用工具,最后汇总结果得到最终答案。

2026-07-01 20:01:27 173

原创 智能体设计范式:ReAct

ReAct(Reason+Act)是一种智能体范式,通过交替进行推理和行动解决复杂问题。其核心是将推理步骤与外部工具调用结合:模型先进行思考(Thought),当需要外部信息时调用工具(Action),根据返回结果(Observation)继续推理,循环直至得出最终答案。该方法的优势在于推理透明、可调用工具突破模型限制,但也存在延迟高、格式解析易错等缺点。文中提供了Python实现示例,包含搜索和计算工具,演示了如何通过多步交互获取"2022年世界杯冠军教练"这类需实时信息的问题答案。

2026-07-01 18:10:21 189

原创 文本分词算法:Byte-Pair Encoding (BPE)、WordPiece 和 SentencePiece

本文介绍了大语言模型中三种主流的子词分词技术。首先阐述了分词的必要性,即将文本转换为数字序列以便模型处理,并指出现代模型普遍采用子词分词算法来平衡词汇表规模和语义表达能力。随后详细讲解了三种主流算法:1)Byte-Pair Encoding(BPE),通过迭代合并高频字符对构建词汇表;2)WordPiece,基于最大似然准则选择合并对;3)SentencePiece的Unigram语言模型方法,直接从原始字节流学习子词概率分布。每种算法都配有原理说明、具体示例和简化Python实现,展现了子词分词如何帮助模

2026-06-30 21:14:07 449

原创 LangChain和LangGraph的概述以及两者区别

LangChain与LangGraph对比解析 LangChain是模块化的高层次开发框架,提供标准化组件和LCEL表达式语言,适合构建线性流程的RAG应用和快速原型开发。而LangGraph是底层工作流编排引擎,采用图结构(节点+条件边)建模复杂状态流,支持循环/分支/人工介入等场景,具备持久化执行、状态回溯等企业级特性,适合多智能体协作和长时运行任务。两者定位互补:LangChain侧重易用性和标准化,LangGraph强调复杂流程控制,在实际项目中可协同使用。选择取决于项目复杂度——简单线性场景用La

2026-06-29 20:11:56 417

原创 YOLO + Qwen3-VL-Seg 深度诊断:双引擎协同完成AI质检

本文提出了一种创新的工业质检双引擎架构,结合YOLO实时检测与Qwen3-VL-Seg精细化诊断,有效解决了传统检测方法中检测与诊断割裂的问题。YOLO部署在边缘端实现高效定位(3.2MB模型,<10ms延迟),Qwen3-VL-Seg在云端完成语义级缺陷分析(仅17M参数的解码器实现像素级分割)。该方案通过6步闭环流程,从实时感知到工艺反哺,显著提升了工业质检的准确性和可解释性,为智能制造提供了从"发现"到"解决"的完整技术路径。

2026-06-26 17:46:59 68 1

原创 深度学习论文: Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding

本研究采用两阶段训练方案,旨在同步强化模型的跨模态理解能力与面向密集预测任务的细粒度感知能力,确保推理逻辑与空间表征的协同优化。第一阶段:分割导向的领域适配 本阶段核心目标为构建稳健的指代分割能力,其基础是预训练视觉‑语言主干已具备的物体定位能力。具体而言,我们将主干网络从自然语言指令中提取的空间先验,迁移至像素级密集预测任务。在此框架下,通过LoRA对语言模型进行参数高效适配,同时联合训练视觉编码器与掩码解码器,统一于指令跟随体系。

2026-06-25 20:23:19 251

原创 深度学习论文: YOLOE-26: Integrating YOLO26 with YOLOE for Real-Time Open-Vocabulary Instance Segmentation

本文提出YOLOE-26,一种融合YOLO26架构与YOLOE开放词汇学习范式的实时开放词汇实例分割框架。该模型保留了YOLO系列的高效性和端到端设计,通过引入目标嵌入头替代固定类别分类,将识别任务转化为语义相似度匹配。关键创新包括:可重参数化的区域-文本对齐模块(实现零开销文本提示)、语义激活视觉提示编码器(支持示例引导分割)和惰性区域提示对比机制(无提示推理)。实验表明,该框架在不同规模模型和提示条件下均展现出良好的精度-效率平衡,完全兼容现有YOLO生态,为动态场景中的实时开放词汇分割提供了实用解决方

2026-06-01 16:31:55 81

原创 深度学习论文: A novel YOLO26-MoE optimized by an LLM agent for insulator fault detection considering UAV

本文提出了一种新型YOLO26-MoE模型,通过将稀疏混合专家(MoE)架构嵌入YOLO26检测头,并采用大语言模型智能体(LLM Agent)进行自动超参数调优,显著提升了无人机图像中绝缘子缺陷检测性能。该方法在P3分支引入MoE模块,通过专家路由机制自适应处理不同特征的绝缘子缺陷,同时设计辅助平衡损失防止路由崩溃。实验结果表明,该模型在mAP@0.5和mAP@0.5:0.95指标上分别达到0.9900和0.9515,优于现有YOLO变体,且参数量和计算量适中。LLM Agent与Optuna的结合实现了

2026-05-26 16:37:31 84

原创 目标检测mAP指标:与生产级精确率/漏检率/误检率的相关性及改造方案

本文探讨目标检测模型评估指标mAP与生产环境关键指标(精确率、漏检率、误检率)的脱节问题。mAP作为综合指标无法直接反映生产场景的实际表现,常导致"实验室高分、现场效果差"的困境。文章提出5个改造方案:1)限定置信度区间的受限mAP;2)引入业务加权的加权mAP;3)按场景拆分的场景mAP;4)重构指标逻辑的业务等价mAP;5)统一评估规则。通过定制化改造,使mAP能准确反映生产环境中的误检、漏检等关键指标表现,实现模型评估与业务需求的对齐。最终建议采用"受限mAP+多指标联合

2026-05-14 08:58:32 505

原创 深度学习论文: Per-Pixel Classification is Not All You Need for Semantic Segmentation

本文提出MaskFormer模型,将语义分割任务转化为预测一系列掩码及其全局类别,统一了语义分割、实例分割和全景分割任务。模型包含像素级模块、Transformer模块和分割模块三部分,通过并行预测N个概率-掩码对实现分割。实验表明,MaskFormer在ADE20K、Cityscapes等数据集上达到SOTA性能,尤其在全景分割任务中表现优异。该方法突破了传统逐像素分类的局限,为分割任务提供了新的统一框架。

2026-05-13 17:03:45 423

原创 深度学习论文: MatchED: Crisp Edge Detection Using End-to-End, Matching-based Supervision

本文提出MatchED模块,用于实现端到端的清晰边缘检测。该模块通过匹配式监督机制,解决了传统方法依赖不可微后处理的问题。MatchED仅引入21K参数量,可嵌入任意边缘检测模型,利用空间距离和置信度进行预测边缘与真值边缘的精准匹配。实验表明,该模块显著提升了模型性能:清晰度指标提升2-4倍,边缘精细度指标提升20%-35%,首次实现了超越传统后处理的端到端SOTA效果。

2026-05-12 10:31:47 82

原创 深度学习论文: ICPR 2026 Competition on Low-Resolution License Plate Recognition

自动车牌识别(ALPR)系统在交通执法、电子收费等场景中应用广泛。在标准成像条件下,车牌检测与识别性能已趋于饱和。然而,在真实监控环境中,由于摄像头距离远、硬件限制以及强压缩,车牌图像常常以低分辨率(Low-Resolution, LR)获取,字符模糊、失真,识别难度显著增加。尽管实际需求迫切,低分辨率车牌识别(LRLPR)仍是一个极具挑战且研究不足的问题,现有最先进方法在真实低质量图像上的识别率也仅为50-60%。为了推动该领域发展,本文在ICPR 2026上组织了首届低分辨率车牌识别竞赛。

2026-05-11 17:05:35 485

原创 深度学习论文: YOLO-World: Real-Time Open-Vocabulary Object Detection

YOLO-World 方法通过视觉-语言建模技术,并结合大规模数据集的预训练过程,成功为YOLO系列模型赋予了开放词汇检测能力。具体而言,本文设计了一种全新的可重参数化视觉-语言路径聚合网络(RepVL-PAN),同时提出区域-文本对比损失函数,以此促进视觉信息与语言信息之间的深度交互与融合,进一步提升模型对跨模态信息的利用效率。YOLO-World 能够以零样本检测方式,高效识别各类不同类型的目标,在检测效率与泛化能力上均表现突出。

2026-04-02 13:35:19 262

原创 深度学习论文: Efficient Universal Perception Encoder

本文提出了一种高效通用感知编码器(EUPE),通过创新的三阶段知识蒸馏流程实现小型化与通用性平衡。首先训练大型代理模型(19亿参数)从多个领域专家(PEcore、DINOv3、PElang)中吸收通用表示能力;然后将其蒸馏至目标高效编码器;最后通过多分辨率微调增强适应性。实验表明,EUPE在相同模型规模下性能优于领域专用模型和传统聚合方法。该方法采用简洁的损失函数设计(余弦相似度+平滑L1)和特征归一化策略,使用与DINOv3相同的数据集(LVD-1689M+ImageNet1k)进行训练。研究团队将开源完

2026-03-31 14:45:23 154

原创 深度学习论文: CPUBone: Efficient Vision Backbone Design for Devices with Low Parallelization Capabilities

CPUBone: 面向低并行CPU设备的高效视觉主干网络设计 本文针对CPU设备并行计算能力有限的特点,提出了CPUBone视觉主干网络。通过分析分组卷积(分组数设为2)和缩小卷积核尺寸(3×3→2×2)对计算效率的影响,发现这些改进能显著降低MAC运算量而不损害硬件效率。基于此,CPUBone采用改进的MBConv模块:通道数<256时使用融合分组MBConv,≥256时使用非融合分组MBConv,并在深层网络使用2×2卷积核。实验表明,CPUBone系列在多种CPU上实现了最优的速度-精度权衡,并

2026-03-31 14:15:47 78

原创 深度学习论文: PicoSAM2: Low-Latency Segmentation In-Sensor for Edge Vision Applications

实时设备端分割技术对于智能眼镜、物联网设备等延迟敏感型及隐私保护导向类应用具有关键意义。本文提出轻量化可提示视觉分割模型PicoSAM2,其参数规模仅130万、乘累加运算量为3.36亿次,专门针对边缘端及传感器内执行场景(含索尼IMX500)进行优化。该模型以深度可分离U-Net为基础架构,融合知识蒸馏与定点提示编码技术,依托Segment Anything Model 2(SAM2)完成能力迁移与学习。​。

2026-03-31 09:09:49 102

原创 深度学习论文: PicoSAM3: Real-Time In-Sensor Region-of-Interest Segmentation

本文提出PicoSAM3,一种专为资源受限边缘设备设计的实时提示驱动分割模型。针对传统Transformer架构的高计算开销问题,PicoSAM3采用全卷积U型网络结构,通过中心裁剪实现隐式提示编码,避免了额外提示输入通道的需求。模型引入深度可分离卷积、空洞卷积和通道注意力模块等轻量化设计,结合两阶段知识蒸馏流程从SAM3迁移分割能力。实验表明,量化后的PicoSAM3在仅1.37M参数下实现8.6%的IoU提升,成功部署于索尼IMX500智能传感器,验证了其在严苛边缘场景下的高效分割能力。该研究为提示驱动

2026-03-30 15:11:09 258

原创 YOLO26 增加 LoRA 支持(参数高效微调 PEFT)

LoRA(低秩适应)是一种高效微调大模型的技术,它通过冻结主干网络参数,仅训练少量低秩矩阵(通常1%-2%的参数)来实现模型适配。核心原理是将原始权重矩阵分解为两个小矩阵的乘积(A和B),前向传播时叠加原始输出与LoRA增量。LoRA具有训练速度快、显存占用低、避免过拟合等优势,且推理时可无缝融合回原模型,不增加计算延迟。代码实现包含LoRA卷积层和线性层的封装,支持自动注入到YOLO26模型,并提供权重合并功能,使推理性能与原生模型一致。

2026-03-26 17:22:21 261

原创 深度学习论文: YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection

YOLO-Master提出了一种创新的实时目标检测框架,通过引入实例条件自适应计算机制解决了传统YOLO架构在算力分配上的失衡问题。该模型核心采用高效稀疏混合专家(ES-MoE)模块,结合动态路由网络实现专家互补学习与稀疏激活。关键技术包括:1)分阶段路由策略,训练时软Top-K保障梯度回传,推理时硬Top-K提升效率;2)多尺度感受野专家设计;3)负载均衡监督策略。实验表明,在MS COCO数据集上,YOLO-Master以1.62ms延迟实现42.4% AP,较YOLOv13-N提升0.8% mAP并加

2026-03-26 15:24:39 156

原创 深度学习论文: C-RADIOv4 (Tech Report)

本文介绍了C-RADIOv4模型的技术改进,该模型通过从SigLIP2、DINOv3和SAM3三个先进视觉基础模型中蒸馏知识来构建聚合式模型。主要创新包括:1)采用随机分辨率训练提升模型适应性;2)引入平移等变损失和MESA技术抑制固定模式噪声;3)使用DAMP增强权重鲁棒性;4)改进摘要损失平衡不同教师特征分布。实验表明,C-RADIOv4在保持较小参数量下展现出强大的多分辨率适应能力和竞争力性能,同时继承了DINOv3的语义分割能力和SigLIP2的文本对齐能力。

2026-03-17 15:13:06 169

原创 深度学习论文: On-Device Large Language Models: A Survey of Model Compression and System Optimization

大型语言模型正越来越多地部署于终端与边缘设备,在此类场景中,内存容量、带宽、延迟与隐私需求主导着系统行为。本综述系统化梳理了从算法到系统的端侧技术栈。在模型层面,本文提出清晰的分类体系,涵盖量化、剪枝、知识蒸馏、低秩适配及混合流程,阐明代表性方法的定位与组合方式。在系统层面,本文将上述技术与推理框架、编译器与运行时优化、内核融合及KV缓存显式管理相衔接。本文进一步提出统一的ALEM评估协议,即精度、延迟、能耗与内存,并在1B至4B参数的代表性模型上实例化,揭示实际权衡:优先应用量化以优化内存与首词延迟;

2026-03-16 16:29:32 96

原创 深度学习论文: One Language-Free Foundation Model Is Enough for Universal Vision Anomaly Detection

本文的核心目标是构建一款通用异常检测框架,无需在目标数据集上做任何训练或微调,就能在不同领域中准确识别异常图像并分割异常区域。该框架需适配两种场景:零样本场景下,训练阶段完全不接触目标域数据,仍能完成图像级异常分类和像素级异常分割;少样本场景下,每个目标类别仅提供 1-4 张正常图像作为参考,就能实现精准检测。简单来说,就是让模型 “见过少量正常样本,或完全没见过目标域样本”,也能快速适配新场景,识别出与正常情况不符的异常。

2026-01-28 10:19:51 134

原创 深度学习论文: No time to train! Training-Free Reference-Based Instance Segmentation

图像分割模型的性能长期受制于大规模标注数据的高成本。分割一切模型(SAM)虽以可提示、语义无关的范式缓解了这一问题,但仍需人工提示或复杂的领域规则,难以适配新图像。为此,本研究聚焦少参考图像的目标分割任务,借助基础模型的语义先验识别参考与目标图像的区域对应关系,自动生成实例级分割掩码。实例分割面临目标遮挡、尺度变化等挑战,在不大量微调的前提下整合 DINOv2 等骨干网络的能力,更是亟待突破的难题。

2026-01-27 14:53:16 95

原创 深度学习论文: AgentIAD: Tool-Augmented Single-Agent for Industrial Anomaly Detection

工业异常检测(Industrial Anomaly Detection, IAD)的难点在于正常参考样本稀缺,且多数缺陷具有细微化、局部化的特征。单阶段视觉 - 语言模型(Vision-Language Models, VLMs)往往会忽略微小异常,且缺乏与标准正常模式进行显式对比的机制。本文提出一种工具驱动的智能体框架AgentIAD,以实现多阶段视觉检测。

2025-12-23 09:58:23 238

原创 C++字符串选型:string与const char* 性能对比及场景选择

摘要:本文分析了C++中string与const char*的性能差异及适用场景。const char*在传递字符串字面量时性能更优,无额外构造开销;而string对象传递时二者性能相当。const char*兼容性强但需手动管理内存,string则更安全便捷。建议根据场景选择:追求性能或兼容C代码时用const char*,日常开发优先使用string。合理结合二者特性可实现高效稳健的字符串处理。

2025-12-17 16:04:11 574

原创 深度学习论文: ChangeDINO: DINOv3-Driven Building Change Detection in Optical Remote Sensing Imagery

遥感变化检测旨在通过配准后的双时相影像识别地表变化。然而,现有许多基于深度学习的方法仅依赖变化图标注,未能充分利用未变化区域的语义信息,导致其在光照变化、倾斜视角及标注稀缺等场景下的鲁棒性受限。本文提出ChangeDINO,一种用于光学建筑物变化检测的端到端多尺度孪生网络框架。该模型将轻量级主干网络的特征流与冻结DINOv3模型传递的语义特征相融合,即使在小规模数据集上也能生成语义与上下文丰富的特征金字塔。

2025-12-10 12:58:19 168

原创 C++17 新增库特性的实例

这些特性使C++17成为更现代化、更安全、更高效的版本,特别在类型安全、性能优化和代码简洁性方面有显著改进。表示一个可能存在的值,用于处理可能失败的操作,避免使用特殊值(如-1、nullptr)表示空值。是一个类型安全的联合体,可以存储多种类型中的一种。是一个字符串的不可变视图,不拥有数据,避免不必要的字符串拷贝,提高性能。是一个类型安全的容器,可以存储任意类型的值,类似于动态类型语言的变量。表示一个字节的数据,专门用于位操作,避免了与字符类型的混淆。的并行版本,不保证计算顺序,对满足结合律的操作更高效。

2025-12-02 14:27:35 824

原创 深度学习论文: Real-Time Object Detection Meets DINOv3

本文提出DEIMv2,一种融合DINOv3特征的实时目标检测框架。通过引入空间调谐适配器(STA)将DINOv3单尺度输出转换为多尺度特征,并针对不同规模模型采用差异化设计:X/L/M/S版本使用DINOv3骨干网络,Nano/Atto等超轻量版本采用剪枝优化的HGNetv2。实验表明,DEIMv2-X仅5030万参数即达57.8 AP,超越同规模模型;DEIMv2-S以971万参数首次突破千万级以下50 AP;DEIMv2-Pico仅150万参数即达38.5 AP,性能媲美参数量更大的YOLOv10-Na

2025-12-02 10:56:09 320

原创 OpenCV中Blob检测的全面解析与实战技巧

本文详细介绍了OpenCV中的Blob检测技术,重点解析了SimpleBlobDetector函数的使用方法。文章首先解释了Blob检测的基本概念,然后详细列出了OpenCV中Blob分析的各种过滤方式和对应参数。通过完整示例代码演示了从图像加载、参数设置到检测结果绘制的全过程。特别强调了使用过程中的三个关键技巧:参数检查机制、背景颜色要求(默认需白色背景)和默认参数值参考。这些内容帮助开发者避免常见错误,提高检测效率。文章为计算机视觉开发者提供了实用的Blob检测指导,涵盖了从基础概念到实际应用的完整知识

2025-12-01 08:38:10 1408

原创 混元OCR技术报告 HunyuanOCR Technical Report

本文提出面向光学字符识别(OCR)任务的商业级开源轻量级视觉语言模型(VLM)——HunyuanOCR,其参数量仅为10亿。该模型架构由原生视觉Transformer(ViT)与轻量级大语言模型(LLM)构成,二者通过MLP适配器完成跨模态信息交互。性能测试表明,HunyuanOCR表现卓越,全面超越主流商业API、传统OCR处理流程及更大参数量模型(如Qwen3-VL-4B):在文本检测识别(Text Spotting)、文本解析(Parsing)等感知类任务中,性能优于现有所有公开方案;

2025-11-28 15:04:06 135

原创 深度学习论文: One Dinomaly2 Detect Them All: A Unified Framework for Full-Spectrum Unsupervised Anomaly De

无监督异常检测技术已从构建专用的单类别模型发展到构建统一的多类别模型,然而现有的多类别模型性能显著落后于最先进的“一对一”专用模型。此外,该领域已分化出众多针对特定场景的专门方法,形成了部署壁垒,凸显了对统一解决方案的迫切需求。本文提出Dinomaly2——首个面向全谱系图像无监督异常检测的统一框架。该框架不仅弥合了多类别模型的性能鸿沟,更能无缝扩展至多种数据模态和任务设置。

2025-11-25 16:36:35 198

原创 深度学习论文: RoMa v2: Harder Better Faster Denser Feature Matching

本文提出RoMa v2稠密特征匹配方法,通过创新架构设计显著提升了匹配精度与效率。主要贡献包括:1)融合翘曲损失与相关性损失的新型目标函数;2)改进的优化模块实现更快速度和更低内存;3)混合宽/小基线数据增强鲁棒性;4)误差协方差预测支持下游优化。实验表明,该方法在保持亚像素精度的同时大幅降低耗时,在多项基准测试中超越现有方法。核心创新在于两阶段解耦训练策略、DINOv3主干网络升级、轻量级注意力机制以及多尺度优化架构,使模型具备更强的分辨率适应性和复杂场景处理能力。

2025-11-24 16:48:20 263

CUDA并行程序设计 GPU编程指南

CUDA并行程序设计:GPU编程指南共分为12章。 第1章 超级计算简史 第2章 使用GPU理解并行计算 第3章 CUDA硬件概述 第4章 CUDA环境搭建 第5章 线程网格、线程块以及线程 第6章 CUDA内存处理 第7章 CUDA实践之道 第8章 多CPU和多GPU解决方案 第9章 应用程序性能优化 第10章 函数库和SDK 第11章 规划GPU硬件系统 第12章 常见问题、原因及解决方案

2019-05-02

爬虫爬取网易汽车车型库【Java代码】

爬虫爬取网易汽车车型库【Java代码】不同品牌/车标(共175个车标)下不同车系(共1650个系列)的的图片(各八张)

2017-04-16

OpenCV3_CVPR_2015.pptx

opencv3新增加的功能,CVPR2015年会议上的PPT,共三个文件

2015-06-17

linux下安装Anaconda3+pytorch+tensorboardX依赖包

linux下安装Anaconda3+pytorch+tensorboardX依赖包, 安装见 https://blog.csdn.net/shanglianlm/article/details/88749803

2019-03-23

Quartz 示例代码

Quartz 是一个完全由 Java 编写的开源企业级作业调度框架。Quartz允许开发人员根据时间间隔来调度作业。它实现了作业和触发器的多对多的关系,还能把多个作业与不同的触发器关联。

2017-05-02

训练好用于车牌分割的神经网络

训练好用于车牌识别的神经网络,0-9,A-Z(不含I和O),每个字符使用50张图片,训练好用于车牌识别的神经网络。

2017-09-22

OpenVINO视觉加速库依赖包

OpenVINO视觉加速库相关的依赖库,不能在线安装时,可以手动下载安装

2019-04-14

java反射示例代码

Java反射机制:反射机制是在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法;对于任意一个对象,都能够调用它的任意一个方法和属性;这种动态获取的信息以及动态调用对象的方法的功能。

2017-05-01

CUDA C编程权威指南

CUDA C编程权威指南 第1章 基于CUDA的异构并行计算1 第2章 CUDA编程模型18 第3章 CUDA执行模型56 第4章 全局内存115 第5章 共享内存和常量内存174 第6章 流和并发230 第7章 调整指令级原语258 第8章 GPU加速库和OpenACC281

2019-05-02

Java 核心技术(第八版)高清电子书PDF和代码

Java 核心技术(第八版)高清电子书PDF和代码

2015-07-27

Java反射机制代码

Java反射机制:反射机制是在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法;对于任意一个对象,都能够调用它的任意一个方法和属性;这种动态获取的信息以及动态调用对象的方法的功能。

2017-05-01

Java爬虫爬取网易汽车车型库

Java爬虫爬取网易汽车车型库

2017-04-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除