- 博客(243)
- 收藏
- 关注
原创 DINOv3 demo
本文介绍了如何利用ModelScope(魔搭)平台的DINOv3预训练模型在本地实现批量图像特征提取。通过安装torch、modelscope和pillow库,开发者可以无需Hugging Face账号验证,直接加载本地或魔搭模型。文章提供了完整的Python代码实现,包括初始化DINOv3模型、批量处理图像输入(支持本地路径或URL),以及输出特征向量的方法。示例代码展示了如何使用预训练模型提取图像特征,最终输出可用于后续任务的特征向量。该方法简化了特征提取流程,为模型融合或蒸馏提供了便利。
2025-12-24 23:23:38
328
原创 OpenCV在Visual Studio中的完整配置教程
本教程详细介绍了在Visual Studio中配置OpenCV的完整步骤。主要内容包括:下载OpenCV(4.2.0版本)并解压到指定目录;在VS2019中创建项目后,配置包含目录、库目录和链接器;解决DLL缺失问题并添加环境变量;提供测试代码验证配置效果;列举常见问题及解决方案;建议使用属性表或CMake简化配置流程。重点强调版本匹配(VS与OpenCV的vc版本)、平台一致性(x64)和路径正确性。通过系统化的配置指导,帮助开发者快速搭建OpenCV开发环境。
2025-12-07 22:27:33
802
原创 Detect Anything via Next Point Prediction论文解读
本文提出了Rex-Omni,一个30亿参数规模的多模态大语言模型,在目标检测任务中实现了与基于回归的传统模型相媲美的性能。通过三个关键设计:1)采用0-999量化坐标表示的特殊令牌,提高预测效率;2)构建多个数据引擎生成丰富的语义监督;3)采用两阶段训练流程,结合监督微调和基于GRPO的强化学习,有效解决坐标精度和预测重复问题。在COCO等基准测试中,Rex-Omni在零样本设置下表现优异,并具备目标指代、OCR等多功能能力,为融合语言理解与视觉感知的系统提供了新思路。
2025-11-11 22:39:25
1180
原创 深入剖析训练钩子(Hook)机制:从内存安全到可扩展训练框架的完整实现
本文详解训练钩子(Hook)机制,通过弱引用实现内存安全,解耦训练主逻辑与日志、保存、调度等辅助功能,提供可扩展、可复用的PyTorch训练框架完整实现。
2025-10-10 10:18:48
650
原创 RT-DETRv2 中的坐标回归机制深度解析:为什么用 `sigmoid(inv_sigmoid(ref) + delta)` 而不是除以图像尺寸?
引言(120字): RT-DETRv2 一行 `sigmoid(inv_sigmoid(ref) + delta)` 暗藏工业级智慧——它让模型不再依赖输入尺寸,所有坐标与损失均基于原始图像归一化计算。无需clamp、不传宽高,真正实现“语义定位”,适配任意分辨率,是端到端检测的范式革新。
2025-09-14 11:49:09
1165
原创 从低维坐标到高维空间:详解高斯随机位置编码(Gaussian Random Positional Encoding)——SAM模型核心技术之一
优势说明高效仅一次矩阵乘法 + 三角函数,计算轻量无训练高斯矩阵固定,不增加训练参数多频编码随机投影 + sin/cos 自然引入高频信息无依赖仅需 PyTorch,适合部署、Docker、移动端通用性强支持图像网格 & 任意点坐标。
2025-09-12 10:51:14
864
原创 DINOv3 核心突破:Gram Anchoring 如何拯救大规模自监督模型的“密集特征崩溃”
今天我们来聊聊最近非常火爆的视觉基础模型——DINOv3。作为 DINOv2 的继任者,它不仅在全局任务(如图像分类)上表现卓越,更是在密集预测任务(如分割、深度估计、3D匹配)上实现了质的飞跃,甚至超越了许多依赖人工标注的弱监督模型。而这一切的核心功臣,就是论文中提出的一个巧妙方法:Gram Anchoring。
2025-09-11 10:55:15
695
原创 SMARTGRAPHQA —— 基于多模态大模型的PDF 转 Markdown方法和基于大模型格式校正方法
一个基于 Python 的工具,利用多模态大模型(MLLM)将 PDF 文档转换为结构清晰、格式准确的 Markdown 文件。支持图像提取、Base64 编码、分段保存和可选的内容校正功能,适用于长文档的高精度转换。
2025-09-04 22:00:00
1309
原创 如何用 `chosen` 和 `rejected` 数据训练大模型?DPO与GRPO完全解析(强化学习)
大模型对齐需教其“何为更好回答”。DPO用偏好数据直接优化;Self-Instruct零标注自生成指令;GRPO基于组级偏好实现精细控制。三者递进,实现从冷启动到精准对齐。这个内容只是作为参考,给出思路,欢迎指正错误。
2025-08-27 16:54:25
1240
原创 Reinforcement Learning in Vision: A Survey论文解读-视觉强化学习
该论文《Reinforcement Learning in Vision: A Survey》由多机构研究者合作完成,聚焦视觉强化学习领域。它梳理策略优化演进,将200余篇研究归为四大主题,分析各领域算法、奖励与基准进展,综述评估协议,指出样本效率等挑战,为研究者提供领域地图与未来方向。
2025-08-26 11:41:48
734
原创 强化学习核心概念与算法详解-马尔可夫决策过程(MDP)+贝尔曼方程(Bellman Equation)
本文系统梳理强化学习(Reinforcement Learning, RL)的核心理论,从基本概念到贝尔曼方程,再到动态规划、蒙特卡洛和时间差分三大求解方法,构建清晰的知识脉络。特别地,我们将深入探讨**马尔可夫性质**与**贝尔曼方程**的内在联系,揭示它们如何共同构成强化学习问题建模与求解的理论基石。
2025-08-25 21:30:00
801
1
原创 SMARTGRAPHQA —— 轻量级、可扩展的知识图谱问答系统
一个专为开发者设计的简洁、模块化、高可读性的知识图谱问答框架,支持从文本到图谱构建、再到智能检索与回答生成的全流程自动化,代码:https://github.com/tangjun1878。同时,也写好了向量检索代码+报告生成代码,但还未集成,后续有时间整合。
2025-08-20 15:45:50
1111
原创 X-SAM: From Segment Anything to Any Segmentation论文解读
X-SAM是一个多模态大模型框架,将“分割一切”扩展至“任意分割”,通过统一架构实现多任务图像分割。提出视觉接地分割新任务,增强像素级理解,结合交互式提示实现精准实例分割,采用跨数据集联合训练策略,在多项基准上达到SOTA性能。
2025-08-17 00:00:00
1303
原创 Docker部署 Neo4j 及集成 APOC 插件:安装与配置完整指南(docker-compose)
本文将分两部分详细介绍相关内容。第一部分讲解如何使用 Docker Compose 部署 Neo4j 图数据库,提供完整配置文件及常见问题解决方案;第二部分在前者基础上,介绍 APOC 插件的集成方法,帮助开发者从零开始搭建完善的 Neo4j 环境。
2025-08-13 14:49:46
2051
原创 A Survey of Task-Oriented Knowledge Graph Reasoning: Status, Applications, and Prospects论文解读(不完整)
知识图谱(KGs)已成为一种强大的范式,用于构建和利用各种现实世界的知识,它是使认知智能系统具备先进理解和推理能力的基础技术。知识图谱推理(KGR)旨在基于知识图谱中的现有事实推断出新的知识,在公安情报、智能医疗和金融风险评估等应用中发挥着至关重要的作用。从任务中心的角度来看,现有的KGR方法大致可分为静态单步KGR、静态多步KGR、动态KGR、多模态KGR、少样本KGR和归纳式KGR。
2025-08-12 14:34:57
1003
原创 Introducing Visual Perception Token into Multimodal Large Language Model论文解读
本研究提出视觉感知令牌(VPT),赋予多模态大模型自主控制视觉感知的能力。VPT包含区域选择和视觉重编码两种令牌,可引导模型关注特定区域或提取特定信息。实验表明,VPT显著提升模型在空间推理和细粒度理解等任务上的表现,使2B模型性能大幅提升30.9%(0.572→0.749),甚至超越7B模型。
2025-08-08 15:49:10
1274
原创 知识图谱检索不止实体检索?这些方法你一定要知道!
在知识图谱的应用中,很多人可能会存在一个误区,认为检索只能围绕实体展开,比如搜索 “姚明”“北京” 这样的具体对象。但实际上,知识图谱的核心价值在于其结构化的 “实体 - 关系 - 属性” 网络,这使得它的检索方式远不止实体检索一种。本文就来详细介绍知识图谱的多种检索方法,包括经典方式与 2025 年最新研究进展,帮助你更灵活地挖掘数据价值。
2025-08-07 10:22:55
965
原创 单类别目标检测中的 Varifocal Loss 与 mAP 评估:从原理到实践(特别前景和背景类区分)
在实际项目中,我们常常遇到这样的场景:只检测一个人物(如 `person`),不需要像 COCO 那样区分 80 个类别。这种 **单类别目标检测(Single-Class Object Detection)** 虽然看似简单,但在损失函数设计、推理解码和 mAP 评估上却暗藏玄机。
2025-08-04 17:55:23
819
原创 基于Python 批量导入实体与关系到 Neo4j 数据库的完整实践
在知识图谱构建过程中,将结构化或半结构化数据导入到图数据库是关键步骤之一。本文将详细介绍如何使用 Python 解析自定义格式数据,并通过 Neo4j 官方驱动将实体和关系批量导入到 Neo4j 数据库中,帮助你快速搭建自己的知识图谱。我也在最后附上完整代码,可直接运行。
2025-08-03 16:45:00
926
原创 From Local to Global: A GraphRAG Approach to Query-Focused Summarization论文解读(GraphRAG)
GraphRAG结合知识图谱与查询聚焦摘要,提升大型语言模型对私有文本语料库的全局问答能力。通过构建实体图并生成社区摘要,实现比传统RAG更全面、多样的回答,适用于百万级token数据集的全局问题。我认为这是一个很不错的解决方法,故此记录一下。
2025-07-20 00:30:00
956
原创 用大模型(qwen)提取知识三元组并构建可视化知识图谱:从文本到图谱的完整实现
知识图谱作为一种结构化的知识表示方式,在智能问答、推荐系统、数据分析等领域有着广泛应用。在信息爆炸的时代,如何从非结构化文本中提取有价值的知识并进行结构化展示,是NLP领域的重要任务。知识三元组(Subject-Relation-Object)是知识图谱的基本组成单元,通过大模型强大的语义理解能力,我们可以自动化提取这些三元组,并构建可交互的知识图谱可视化界面。本文将介绍一个基于大模型的知识图谱构建工具,它能从文本中自动提取知识三元组(主体-关系-客体),并通过可视化工具生成交互式知识图谱。
2025-07-17 13:52:46
2981
2
原创 A Survey on Vision-Language-Action Models: An Action Tokenization Perspective论文解读(VLA-下集)
视觉-语言-行动(VLA)模型借助多模态基础模型的进步,在机器人领域迅速发展。本文从“动作标记化”视角对现有VLA方法进行系统梳理,归纳出八种主要类型:语言描述、代码、可供性、轨迹、目标状态、潜在表示、原始动作和推理。每种标记方式在表达能力、泛化性和执行效率方面各有优劣,但也存在理解不足、评估不统一等问题。通过分析其优势与局限,本文揭示了VLA模型的发展趋势与未被充分探索的潜力方向,如跨模态对齐、长期任务规划和现实场景适应等。研究旨在推动更高效、通用的VLA系统构建,为未来智能体在复杂环境中的应用提供理论支
2025-07-08 11:26:04
1401
原创 A Survey on Vision-Language-Action Models: An Action Tokenization Perspective论文解读(VLA-上集)
视觉-语言-行动(VLA)模型借助多模态基础模型的进步,在机器人领域迅速发展。本文从“动作标记化”视角对现有VLA方法进行系统梳理,归纳出八种主要类型:语言描述、代码、可供性、轨迹、目标状态、潜在表示、原始动作和推理。每种标记方式在表达能力、泛化性和执行效率方面各有优劣,但也存在理解不足、评估不统一等问题。通过分析其优势与局限,本文揭示了VLA模型的发展趋势与未被充分探索的潜力方向,如跨模态对齐、长期任务规划和现实场景适应等。研究旨在推动更高效、通用的VLA系统构建,为未来智能体在复杂环境中的应用提供理论支
2025-07-08 11:14:20
1350
原创 Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks论文解读
快速发展的技术已超越了基础RAG范式,许多方法难以统一在“先检索后生成”的流程中。在此背景下,本文剖析了现有RAG范式的局限性,并提出模块化RAG框架。通过将复杂的RAG系统分解为独立模块和专用操作符,该框架实现了高度可重构的架构。模块化RAG超越了传统线性架构,采用更先进的设计,集成了路由、调度和融合机制。通过深入研究,本文进一步识别了常见的RAG模式——线性、条件、分支和循环——并对其各自的实现细节进行了全面分析。能阐明RAG的痛点和给出更多RAG的相关方法,值得一读。
2025-07-05 23:12:12
1340
原创 Adaptive Retrieval-Augmented Generation for Conversational Systems论文解读
尽管将大型语言模型集成到会话系统的开发中已取得成功,但许多研究表明,检索和增强外部知识对于生成信息丰富的回答非常有效。因此,许多现有研究通常假设会话系统始终需要检索增强生成(RAG),而没有明确的控制。这就提出了一个关于这种必要性的研究问题。在本研究中,我们提出研究会话系统每个轮次的响应是否需要用外部知识进行增强。特别是,**通过利用人类对自适应增强的二元选择判断,我们开发了RAGate,这是一种门控模型,它对会话上下文和相关输入进行建模,以预测会话系统是否需要RAG来改进响应**。
2025-07-02 14:31:10
703
原创 A Survey on Reasoning Agentic Retrieval-Augmented Generation for Industry Challenges论文解读
Agentic RAG方法综述,主要该论文全面回顾了推理代理RAG方法,将其分为两个主要系统:预定义推理,其遵循固定的模块化管道以增强推理;以及代理推理,其中模型在推理过程中自主协调工具交互。我们分析了这两种范式下的代表性技术,涵盖架构设计、推理策略和工具协调。最后,我们讨论了关键研究挑战,并提出了未来方向,以提升推理代理RAG系统的灵活性、鲁棒性和适用性。
2025-07-01 14:17:12
1057
原创 Pneuma: Leveraging LLMs for Tabular Data Representation and Retrieval in an End-to-End System论文解读
Pneuma是一种基于大型语言模型的表格数据发现系统,结合全文检索、向量搜索与LLM提升检索性能。它通过保留表格模式和行级信息实现全面理解,并支持自然语言查询,显著提高数据发现的准确性与效率。
2025-06-19 10:28:33
745
原创 使用LangChain与多模态模型实现图像中的文字和表格提取(PDF可转图片)
最近需要解决工程中的一个问题,就是将PDF中相关内容进行提取,而不相关水映等内容需要去除,为了实现这样的目的。我使用网页版本qwen进行了测试,效果基本能实现。为此,我使用ollama框架搭建多模态大模型,使用langchain架构来调用,给出相应的提示词来实现我们想要的功能。最终将提取的内容输出为makedown格式,再将其格式转成word格式进行输出。该方法能实现我们工程的需求。为此,我进行记录一下。
2025-05-28 09:26:27
1187
原创 基于LangManus深入理解系统提示设计
在人工智能领域,系统提示(System Prompt)扮演着至关重要的角色。它不仅指导AI的行为模式和响应策略,还直接影响到用户体验和系统的整体效能。一个设计良好的系统提示能够显著提升AI处理复杂任务的能力,确保其操作既安全又高效。本文将以LangManus框架为例,探讨系统提示的设计理念及其在多智能体协作中的应用。希望通过深入解析LangManus的系统提示机制,为研究人员和开发者提供有价值的见解,推动AI技术在更多领域的创新应用与发展。
2025-05-22 16:30:48
798
原创 PDFTriage: Question Answering over Long, Structured Documents论文解读
最近狂学RAG内容,特别是如何有效检索。碰到PDFTriage文章是来解决结构层次的文档,对PDF、网页和演示文稿等文档具有自然的结构,包括不同的页面、表格、章节等。将这些结构化的文档表示为纯文本与用户对这些具有丰富结构的文档的心理模型不一致。当系统需要查询文档以获取上下文时,这种不一致性尤为明显,即使是看似简单的问题也可能使QA系统出错。为了弥合这一处理结构化文档的基本差距,我们提出了一种名为PDFTriage的方法,使模型能够基于结构或内容检索上下文。
2025-05-13 14:13:58
679
原创 Milvus 2.4 使用详解:从零构建向量数据库并实现搜索功能(Python 实战)
在大规模向量数据检索场景中,Milvus 是一个非常强大的开源向量数据库。它支持高效的相似性搜索、灵活的数据模型设计以及多语言接口。本文将通过 Python 客户端 `pymilvus`,带你一步步从零开始使用 Milvus 构建一个简单的向量数据库,并实现插入数据与相似性搜索的完整流程。
2025-05-12 14:28:37
2091
原创 Chain-of-Retrieval Augmented Generation-(CoRAG,链式检索增强生成)论文解读
本文提出了一种名为CoRAG(链式检索增强生成)的训练方法,用于提升RAG模型在复杂查询任务中的表现。与传统RAG仅进行单次检索不同,CoRAG通过动态调整查询并逐步检索推理,实现信息的迭代获取。为训练该模型,研究者采用拒绝采样技术自动生成中间检索链条,以扩展现有数据集。实验表明,CoRAG在多跳问答任务中显著优于基线模型,EM分数提升超10分,并在KILT基准中多个知识密集型任务上达到新的SOTA性能。
2025-05-09 15:05:26
1454
原创 第四章:基于langchain构造一个完整RAG系统
RAG是一种结合了检索(Retrieval)与生成(Generation)的混合模型架构。传统的大规模语言模型(LLM)虽然具备强大的生成能力,但在处理特定领域的复杂问题时,往往缺乏准确性,产生模型幻想。而RAG通过引入外部知识库,利用检索模块获取相关上下文信息,再将其输入生成模块,从而弥补了这一不足。检索阶段:根据用户输入的问题,从外部知识库中检索最相关的文档片段。生成阶段:将检索到的内容与用户问题一起输入生成模型,生成最终的答案。增强准确性。
2025-05-08 15:07:22
1190
原创 第三章:langchain加载word文档构建RAG检索教程(基于FAISS库为例)
如果你已有了向量embed模型,该如何构建一个检索方法呢?本节就是一个完整的构建教程,使用word文档载入到分块再到向量化,并利用数据库进行检索。我们使用FAISS库来实现这个功能,依然使用langchain款就爱来完成。该代码实现是比较简单的,但这仅仅是给初学者学习的。我们会进一步从底层源码进行解读,给出更深入讲解。
2025-05-06 23:02:54
1417
原创 第二章:langchain文本向量化(embed)搭建与详细教程-本地服务方式(下)
在上篇文章介绍了langchain源码embed方法与基于api key方式构建向量模型。然而,某些情况,我们调用的模型不存在支持框架能将其转为openai api key形式或不被支持。基于此,我们使用服务端与客户端的方法来构建一个能替换上一章内容的方法。我们构建本地构建一个向量模型,通过服务方式发送,再被langchain所接受形式。当然,这个方法也适用大语言模型实现形式,只需要发送服务接口与langchain调用保持一致即可。当然,使用服务是一个可行方法,但至于用什么来做,可根据你的想法来。
2025-05-06 22:58:19
1332
原创 第二章:langchain文本向量化(embed)搭建与详细教程-openai接口方式(上)
langchain是一个很好使用RAG的Agent方法。而构建RAG需要将不同模态文本转为向量作为知识存储。如何调用向量模型是一个非常重要内容,而如何调用这个向量模型相关解读文章较少。基于此,本文旨在深入探讨如何使用LangChain框架结合百川API构建向量模型,进而构建一套通用代码调用OpenAI API key方法,阐述了利用通用OpenAI接口方法调用text embedding模型的具体实践。
2025-04-24 17:43:34
1191
原创 第一章:基于Docker环境快速搭建LangChain框架的智能对话系统:从langchain环境搭建到多轮对话代码实现(大语言模型加载)
在当今的技术发展中,大语言模型(LLMs)的出现极大地简化了智能对话系统的构建。LangChain作为一个强大的框架,为开发者提供了灵活且全面的工具集,使得即使是复杂的多轮对话系统也能轻松实现。本指南将简要介绍如何使用Docker快速搭建LangChain环境,并通过实例展示从简单的问答到带有历史记录的多轮对话的构建方法。首先,我们会学习如何利用Docker部署一个支持GPU的环境,以加速应用运行。然后,我们将了解如何安装LangChain及通过API调用语言模型进行交互。
2025-04-23 13:50:53
2034
1
原创 深入理解 PyTorch 的 nn.Embedding:词向量映射及变量 weight 的更新机制
在深度学习领域,特别是在自然语言处理(NLP)中,是一个非常重要的模块,用于将离散的词汇(如单词或标记)映射为连续的向量表示。本文详细讲解了的使用方法、其权重是否会在模型更新过程中被更新的问题,以及如何控制这些权重是否参与训练。默认情况下的权重是可训练的,会在每次反向传播后被更新。如果需要固定权重,可以通过设置、使用并设置或在优化器中排除这些参数来实现。
2025-04-12 23:00:34
1042
原创 Dockerfile文件构建镜像Anaconda+Python教程
在深度学习与自然语言处理领域,环境配置的复杂性常常成为开发者的痛点。本文将通过一个基于CUDA 12.1的深度学习环境Dockerfile实例,详解如何高效构建可复现的容器化开发环境,并结合Dockerfile最佳实践,助你掌握企业级镜像构建技巧。
2025-04-02 20:00:00
1345
原创 利用Pydantic的BaseModel简化Python中的数据处理
在开发过程中,我们经常需要处理来自不同源头的数据,这些数据可能包含各种格式和类型。确保数据的质量和一致性是构建健壮应用的关键之一。为了简化这一过程,提高代码的可维护性和可靠性,我们可以使用Pydantic库提供的`BaseModel`类。本文将简要介绍`BaseModel`的作用、适用场景,并通过实例展示其基本用法。
2025-03-19 14:13:04
1822
Manus+报告生成+中间文件内容
2025-05-13
PDFTriage论文的非结构化pdf文档内容
2025-05-12
3d检测-点云检测-深度估计+世界、相机、像素坐标相互转换+刚性运动+深度值转点云坐标、点云坐标转像素坐标、标签值转像素坐标方法
2024-09-11
大语言模型+llama3+代码+学习可运行llama3代码
2024-07-25
多模态大模型+llava教程token+input-ids-labels+模型输入格式
2024-06-14
目标检测指标map+map计算代码+map计算列子(包含gt与pred输入)
2023-12-24
RT-DETR+auto-train-detect+RTDETR-run
2023-12-21
目标检测+RTDETR+训练与预测代码
2023-12-19
vscode-main+deepspeed进行debug+vscode配置deepspeed环境debug代码
2023-12-14
CV-gronding-dino,tag2text,ram,ram++-原文重点翻译-论文解读
2023-12-09
CogVLM论文+翻译
2023-11-28
NLP(BERT)+vocab.txt+中/英文转token+内容转模型识别符号
2023-10-13
yolov5+auto-train-detect+yolov5-run
2023-09-14
yolov5部署+onnx-cpp-tensorrt+onnx的yolov5部署源码
2023-09-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅