自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(243)
  • 收藏
  • 关注

原创 DINOv3 demo

本文介绍了如何利用ModelScope(魔搭)平台的DINOv3预训练模型在本地实现批量图像特征提取。通过安装torch、modelscope和pillow库,开发者可以无需Hugging Face账号验证,直接加载本地或魔搭模型。文章提供了完整的Python代码实现,包括初始化DINOv3模型、批量处理图像输入(支持本地路径或URL),以及输出特征向量的方法。示例代码展示了如何使用预训练模型提取图像特征,最终输出可用于后续任务的特征向量。该方法简化了特征提取流程,为模型融合或蒸馏提供了便利。

2025-12-24 23:23:38 328

原创 OpenCV在Visual Studio中的完整配置教程

本教程详细介绍了在Visual Studio中配置OpenCV的完整步骤。主要内容包括:下载OpenCV(4.2.0版本)并解压到指定目录;在VS2019中创建项目后,配置包含目录、库目录和链接器;解决DLL缺失问题并添加环境变量;提供测试代码验证配置效果;列举常见问题及解决方案;建议使用属性表或CMake简化配置流程。重点强调版本匹配(VS与OpenCV的vc版本)、平台一致性(x64)和路径正确性。通过系统化的配置指导,帮助开发者快速搭建OpenCV开发环境。

2025-12-07 22:27:33 802

原创 Detect Anything via Next Point Prediction论文解读

本文提出了Rex-Omni,一个30亿参数规模的多模态大语言模型,在目标检测任务中实现了与基于回归的传统模型相媲美的性能。通过三个关键设计:1)采用0-999量化坐标表示的特殊令牌,提高预测效率;2)构建多个数据引擎生成丰富的语义监督;3)采用两阶段训练流程,结合监督微调和基于GRPO的强化学习,有效解决坐标精度和预测重复问题。在COCO等基准测试中,Rex-Omni在零样本设置下表现优异,并具备目标指代、OCR等多功能能力,为融合语言理解与视觉感知的系统提供了新思路。

2025-11-11 22:39:25 1180

原创 深入剖析训练钩子(Hook)机制:从内存安全到可扩展训练框架的完整实现

本文详解训练钩子(Hook)机制,通过弱引用实现内存安全,解耦训练主逻辑与日志、保存、调度等辅助功能,提供可扩展、可复用的PyTorch训练框架完整实现。

2025-10-10 10:18:48 650

原创 RT-DETRv2 中的坐标回归机制深度解析:为什么用 `sigmoid(inv_sigmoid(ref) + delta)` 而不是除以图像尺寸?

引言(120字): RT-DETRv2 一行 `sigmoid(inv_sigmoid(ref) + delta)` 暗藏工业级智慧——它让模型不再依赖输入尺寸,所有坐标与损失均基于原始图像归一化计算。无需clamp、不传宽高,真正实现“语义定位”,适配任意分辨率,是端到端检测的范式革新。

2025-09-14 11:49:09 1165

原创 从低维坐标到高维空间:详解高斯随机位置编码(Gaussian Random Positional Encoding)——SAM模型核心技术之一

优势说明高效仅一次矩阵乘法 + 三角函数,计算轻量无训练高斯矩阵固定,不增加训练参数多频编码随机投影 + sin/cos 自然引入高频信息无依赖仅需 PyTorch,适合部署、Docker、移动端通用性强支持图像网格 & 任意点坐标。

2025-09-12 10:51:14 864

原创 DINOv3 核心突破:Gram Anchoring 如何拯救大规模自监督模型的“密集特征崩溃”

今天我们来聊聊最近非常火爆的视觉基础模型——DINOv3。作为 DINOv2 的继任者,它不仅在全局任务(如图像分类)上表现卓越,更是在密集预测任务(如分割、深度估计、3D匹配)上实现了质的飞跃,甚至超越了许多依赖人工标注的弱监督模型。而这一切的核心功臣,就是论文中提出的一个巧妙方法:Gram Anchoring。

2025-09-11 10:55:15 695

原创 SMARTGRAPHQA —— 基于多模态大模型的PDF 转 Markdown方法和基于大模型格式校正方法

一个基于 Python 的工具,利用多模态大模型(MLLM)将 PDF 文档转换为结构清晰、格式准确的 Markdown 文件。支持图像提取、Base64 编码、分段保存和可选的内容校正功能,适用于长文档的高精度转换。

2025-09-04 22:00:00 1309

原创 如何用 `chosen` 和 `rejected` 数据训练大模型?DPO与GRPO完全解析(强化学习)

大模型对齐需教其“何为更好回答”。DPO用偏好数据直接优化;Self-Instruct零标注自生成指令;GRPO基于组级偏好实现精细控制。三者递进,实现从冷启动到精准对齐。这个内容只是作为参考,给出思路,欢迎指正错误。

2025-08-27 16:54:25 1240

原创 Reinforcement Learning in Vision: A Survey论文解读-视觉强化学习

该论文《Reinforcement Learning in Vision: A Survey》由多机构研究者合作完成,聚焦视觉强化学习领域。它梳理策略优化演进,将200余篇研究归为四大主题,分析各领域算法、奖励与基准进展,综述评估协议,指出样本效率等挑战,为研究者提供领域地图与未来方向。

2025-08-26 11:41:48 734

原创 强化学习核心概念与算法详解-马尔可夫决策过程(MDP)+贝尔曼方程(Bellman Equation)

本文系统梳理强化学习(Reinforcement Learning, RL)的核心理论,从基本概念到贝尔曼方程,再到动态规划、蒙特卡洛和时间差分三大求解方法,构建清晰的知识脉络。特别地,我们将深入探讨**马尔可夫性质**与**贝尔曼方程**的内在联系,揭示它们如何共同构成强化学习问题建模与求解的理论基石。

2025-08-25 21:30:00 801 1

原创 SMARTGRAPHQA —— 轻量级、可扩展的知识图谱问答系统

一个专为开发者设计的简洁、模块化、高可读性的知识图谱问答框架,支持从文本到图谱构建、再到智能检索与回答生成的全流程自动化,代码:https://github.com/tangjun1878。同时,也写好了向量检索代码+报告生成代码,但还未集成,后续有时间整合。

2025-08-20 15:45:50 1111

原创 X-SAM: From Segment Anything to Any Segmentation论文解读

X-SAM是一个多模态大模型框架,将“分割一切”扩展至“任意分割”,通过统一架构实现多任务图像分割。提出视觉接地分割新任务,增强像素级理解,结合交互式提示实现精准实例分割,采用跨数据集联合训练策略,在多项基准上达到SOTA性能。

2025-08-17 00:00:00 1303

原创 Docker部署 Neo4j 及集成 APOC 插件:安装与配置完整指南(docker-compose)

本文将分两部分详细介绍相关内容。第一部分讲解如何使用 Docker Compose 部署 Neo4j 图数据库,提供完整配置文件及常见问题解决方案;第二部分在前者基础上,介绍 APOC 插件的集成方法,帮助开发者从零开始搭建完善的 Neo4j 环境。

2025-08-13 14:49:46 2051

原创 A Survey of Task-Oriented Knowledge Graph Reasoning: Status, Applications, and Prospects论文解读(不完整)

知识图谱(KGs)已成为一种强大的范式,用于构建和利用各种现实世界的知识,它是使认知智能系统具备先进理解和推理能力的基础技术。知识图谱推理(KGR)旨在基于知识图谱中的现有事实推断出新的知识,在公安情报、智能医疗和金融风险评估等应用中发挥着至关重要的作用。从任务中心的角度来看,现有的KGR方法大致可分为静态单步KGR、静态多步KGR、动态KGR、多模态KGR、少样本KGR和归纳式KGR。

2025-08-12 14:34:57 1003

原创 Introducing Visual Perception Token into Multimodal Large Language Model论文解读

本研究提出视觉感知令牌(VPT),赋予多模态大模型自主控制视觉感知的能力。VPT包含区域选择和视觉重编码两种令牌,可引导模型关注特定区域或提取特定信息。实验表明,VPT显著提升模型在空间推理和细粒度理解等任务上的表现,使2B模型性能大幅提升30.9%(0.572→0.749),甚至超越7B模型。

2025-08-08 15:49:10 1274

原创 知识图谱检索不止实体检索?这些方法你一定要知道!

在知识图谱的应用中,很多人可能会存在一个误区,认为检索只能围绕实体展开,比如搜索 “姚明”“北京” 这样的具体对象。但实际上,知识图谱的核心价值在于其结构化的 “实体 - 关系 - 属性” 网络,这使得它的检索方式远不止实体检索一种。本文就来详细介绍知识图谱的多种检索方法,包括经典方式与 2025 年最新研究进展,帮助你更灵活地挖掘数据价值。

2025-08-07 10:22:55 965

原创 单类别目标检测中的 Varifocal Loss 与 mAP 评估:从原理到实践(特别前景和背景类区分)

在实际项目中,我们常常遇到这样的场景:只检测一个人物(如 `person`),不需要像 COCO 那样区分 80 个类别。这种 **单类别目标检测(Single-Class Object Detection)** 虽然看似简单,但在损失函数设计、推理解码和 mAP 评估上却暗藏玄机。

2025-08-04 17:55:23 819

原创 基于Python 批量导入实体与关系到 Neo4j 数据库的完整实践

在知识图谱构建过程中,将结构化或半结构化数据导入到图数据库是关键步骤之一。本文将详细介绍如何使用 Python 解析自定义格式数据,并通过 Neo4j 官方驱动将实体和关系批量导入到 Neo4j 数据库中,帮助你快速搭建自己的知识图谱。我也在最后附上完整代码,可直接运行。

2025-08-03 16:45:00 926

原创 From Local to Global: A GraphRAG Approach to Query-Focused Summarization论文解读(GraphRAG)

GraphRAG结合知识图谱与查询聚焦摘要,提升大型语言模型对私有文本语料库的全局问答能力。通过构建实体图并生成社区摘要,实现比传统RAG更全面、多样的回答,适用于百万级token数据集的全局问题。我认为这是一个很不错的解决方法,故此记录一下。

2025-07-20 00:30:00 956

原创 用大模型(qwen)提取知识三元组并构建可视化知识图谱:从文本到图谱的完整实现

知识图谱作为一种结构化的知识表示方式,在智能问答、推荐系统、数据分析等领域有着广泛应用。在信息爆炸的时代,如何从非结构化文本中提取有价值的知识并进行结构化展示,是NLP领域的重要任务。知识三元组(Subject-Relation-Object)是知识图谱的基本组成单元,通过大模型强大的语义理解能力,我们可以自动化提取这些三元组,并构建可交互的知识图谱可视化界面。本文将介绍一个基于大模型的知识图谱构建工具,它能从文本中自动提取知识三元组(主体-关系-客体),并通过可视化工具生成交互式知识图谱。

2025-07-17 13:52:46 2981 2

原创 A Survey on Vision-Language-Action Models: An Action Tokenization Perspective论文解读(VLA-下集)

视觉-语言-行动(VLA)模型借助多模态基础模型的进步,在机器人领域迅速发展。本文从“动作标记化”视角对现有VLA方法进行系统梳理,归纳出八种主要类型:语言描述、代码、可供性、轨迹、目标状态、潜在表示、原始动作和推理。每种标记方式在表达能力、泛化性和执行效率方面各有优劣,但也存在理解不足、评估不统一等问题。通过分析其优势与局限,本文揭示了VLA模型的发展趋势与未被充分探索的潜力方向,如跨模态对齐、长期任务规划和现实场景适应等。研究旨在推动更高效、通用的VLA系统构建,为未来智能体在复杂环境中的应用提供理论支

2025-07-08 11:26:04 1401

原创 A Survey on Vision-Language-Action Models: An Action Tokenization Perspective论文解读(VLA-上集)

视觉-语言-行动(VLA)模型借助多模态基础模型的进步,在机器人领域迅速发展。本文从“动作标记化”视角对现有VLA方法进行系统梳理,归纳出八种主要类型:语言描述、代码、可供性、轨迹、目标状态、潜在表示、原始动作和推理。每种标记方式在表达能力、泛化性和执行效率方面各有优劣,但也存在理解不足、评估不统一等问题。通过分析其优势与局限,本文揭示了VLA模型的发展趋势与未被充分探索的潜力方向,如跨模态对齐、长期任务规划和现实场景适应等。研究旨在推动更高效、通用的VLA系统构建,为未来智能体在复杂环境中的应用提供理论支

2025-07-08 11:14:20 1350

原创 Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks论文解读

快速发展的技术已超越了基础RAG范式,许多方法难以统一在“先检索后生成”的流程中。在此背景下,本文剖析了现有RAG范式的局限性,并提出模块化RAG框架。通过将复杂的RAG系统分解为独立模块和专用操作符,该框架实现了高度可重构的架构。模块化RAG超越了传统线性架构,采用更先进的设计,集成了路由、调度和融合机制。通过深入研究,本文进一步识别了常见的RAG模式——线性、条件、分支和循环——并对其各自的实现细节进行了全面分析。能阐明RAG的痛点和给出更多RAG的相关方法,值得一读。

2025-07-05 23:12:12 1340

原创 Adaptive Retrieval-Augmented Generation for Conversational Systems论文解读

尽管将大型语言模型集成到会话系统的开发中已取得成功,但许多研究表明,检索和增强外部知识对于生成信息丰富的回答非常有效。因此,许多现有研究通常假设会话系统始终需要检索增强生成(RAG),而没有明确的控制。这就提出了一个关于这种必要性的研究问题。在本研究中,我们提出研究会话系统每个轮次的响应是否需要用外部知识进行增强。特别是,**通过利用人类对自适应增强的二元选择判断,我们开发了RAGate,这是一种门控模型,它对会话上下文和相关输入进行建模,以预测会话系统是否需要RAG来改进响应**。

2025-07-02 14:31:10 703

原创 A Survey on Reasoning Agentic Retrieval-Augmented Generation for Industry Challenges论文解读

Agentic RAG方法综述,主要该论文全面回顾了推理代理RAG方法,将其分为两个主要系统:预定义推理,其遵循固定的模块化管道以增强推理;以及代理推理,其中模型在推理过程中自主协调工具交互。我们分析了这两种范式下的代表性技术,涵盖架构设计、推理策略和工具协调。最后,我们讨论了关键研究挑战,并提出了未来方向,以提升推理代理RAG系统的灵活性、鲁棒性和适用性。

2025-07-01 14:17:12 1057

原创 Pneuma: Leveraging LLMs for Tabular Data Representation and Retrieval in an End-to-End System论文解读

Pneuma是一种基于大型语言模型的表格数据发现系统,结合全文检索、向量搜索与LLM提升检索性能。它通过保留表格模式和行级信息实现全面理解,并支持自然语言查询,显著提高数据发现的准确性与效率。

2025-06-19 10:28:33 745

原创 使用LangChain与多模态模型实现图像中的文字和表格提取(PDF可转图片)

最近需要解决工程中的一个问题,就是将PDF中相关内容进行提取,而不相关水映等内容需要去除,为了实现这样的目的。我使用网页版本qwen进行了测试,效果基本能实现。为此,我使用ollama框架搭建多模态大模型,使用langchain架构来调用,给出相应的提示词来实现我们想要的功能。最终将提取的内容输出为makedown格式,再将其格式转成word格式进行输出。该方法能实现我们工程的需求。为此,我进行记录一下。

2025-05-28 09:26:27 1187

原创 基于LangManus深入理解系统提示设计

在人工智能领域,系统提示(System Prompt)扮演着至关重要的角色。它不仅指导AI的行为模式和响应策略,还直接影响到用户体验和系统的整体效能。一个设计良好的系统提示能够显著提升AI处理复杂任务的能力,确保其操作既安全又高效。本文将以LangManus框架为例,探讨系统提示的设计理念及其在多智能体协作中的应用。希望通过深入解析LangManus的系统提示机制,为研究人员和开发者提供有价值的见解,推动AI技术在更多领域的创新应用与发展。

2025-05-22 16:30:48 798

原创 PDFTriage: Question Answering over Long, Structured Documents论文解读

最近狂学RAG内容,特别是如何有效检索。碰到PDFTriage文章是来解决结构层次的文档,对PDF、网页和演示文稿等文档具有自然的结构,包括不同的页面、表格、章节等。将这些结构化的文档表示为纯文本与用户对这些具有丰富结构的文档的心理模型不一致。当系统需要查询文档以获取上下文时,这种不一致性尤为明显,即使是看似简单的问题也可能使QA系统出错。为了弥合这一处理结构化文档的基本差距,我们提出了一种名为PDFTriage的方法,使模型能够基于结构或内容检索上下文。

2025-05-13 14:13:58 679

原创 Milvus 2.4 使用详解:从零构建向量数据库并实现搜索功能(Python 实战)

在大规模向量数据检索场景中,Milvus 是一个非常强大的开源向量数据库。它支持高效的相似性搜索、灵活的数据模型设计以及多语言接口。本文将通过 Python 客户端 `pymilvus`,带你一步步从零开始使用 Milvus 构建一个简单的向量数据库,并实现插入数据与相似性搜索的完整流程。

2025-05-12 14:28:37 2091

原创 Chain-of-Retrieval Augmented Generation-(CoRAG,链式检索增强生成)论文解读

本文提出了一种名为CoRAG(链式检索增强生成)的训练方法,用于提升RAG模型在复杂查询任务中的表现。与传统RAG仅进行单次检索不同,CoRAG通过动态调整查询并逐步检索推理,实现信息的迭代获取。为训练该模型,研究者采用拒绝采样技术自动生成中间检索链条,以扩展现有数据集。实验表明,CoRAG在多跳问答任务中显著优于基线模型,EM分数提升超10分,并在KILT基准中多个知识密集型任务上达到新的SOTA性能。

2025-05-09 15:05:26 1454

原创 第四章:基于langchain构造一个完整RAG系统

RAG是一种结合了检索(Retrieval)与生成(Generation)的混合模型架构。传统的大规模语言模型(LLM)虽然具备强大的生成能力,但在处理特定领域的复杂问题时,往往缺乏准确性,产生模型幻想。而RAG通过引入外部知识库,利用检索模块获取相关上下文信息,再将其输入生成模块,从而弥补了这一不足。检索阶段:根据用户输入的问题,从外部知识库中检索最相关的文档片段。生成阶段:将检索到的内容与用户问题一起输入生成模型,生成最终的答案。增强准确性。

2025-05-08 15:07:22 1190

原创 第三章:langchain加载word文档构建RAG检索教程(基于FAISS库为例)

如果你已有了向量embed模型,该如何构建一个检索方法呢?本节就是一个完整的构建教程,使用word文档载入到分块再到向量化,并利用数据库进行检索。我们使用FAISS库来实现这个功能,依然使用langchain款就爱来完成。该代码实现是比较简单的,但这仅仅是给初学者学习的。我们会进一步从底层源码进行解读,给出更深入讲解。

2025-05-06 23:02:54 1417

原创 第二章:langchain文本向量化(embed)搭建与详细教程-本地服务方式(下)

在上篇文章介绍了langchain源码embed方法与基于api key方式构建向量模型。然而,某些情况,我们调用的模型不存在支持框架能将其转为openai api key形式或不被支持。基于此,我们使用服务端与客户端的方法来构建一个能替换上一章内容的方法。我们构建本地构建一个向量模型,通过服务方式发送,再被langchain所接受形式。当然,这个方法也适用大语言模型实现形式,只需要发送服务接口与langchain调用保持一致即可。当然,使用服务是一个可行方法,但至于用什么来做,可根据你的想法来。

2025-05-06 22:58:19 1332

原创 第二章:langchain文本向量化(embed)搭建与详细教程-openai接口方式(上)

langchain是一个很好使用RAG的Agent方法。而构建RAG需要将不同模态文本转为向量作为知识存储。如何调用向量模型是一个非常重要内容,而如何调用这个向量模型相关解读文章较少。基于此,本文旨在深入探讨如何使用LangChain框架结合百川API构建向量模型,进而构建一套通用代码调用OpenAI API key方法,阐述了利用通用OpenAI接口方法调用text embedding模型的具体实践。

2025-04-24 17:43:34 1191

原创 第一章:基于Docker环境快速搭建LangChain框架的智能对话系统:从langchain环境搭建到多轮对话代码实现(大语言模型加载)

在当今的技术发展中,大语言模型(LLMs)的出现极大地简化了智能对话系统的构建。LangChain作为一个强大的框架,为开发者提供了灵活且全面的工具集,使得即使是复杂的多轮对话系统也能轻松实现。本指南将简要介绍如何使用Docker快速搭建LangChain环境,并通过实例展示从简单的问答到带有历史记录的多轮对话的构建方法。首先,我们会学习如何利用Docker部署一个支持GPU的环境,以加速应用运行。然后,我们将了解如何安装LangChain及通过API调用语言模型进行交互。

2025-04-23 13:50:53 2034 1

原创 深入理解 PyTorch 的 nn.Embedding:词向量映射及变量 weight 的更新机制

在深度学习领域,特别是在自然语言处理(NLP)中,是一个非常重要的模块,用于将离散的词汇(如单词或标记)映射为连续的向量表示。本文详细讲解了的使用方法、其权重是否会在模型更新过程中被更新的问题,以及如何控制这些权重是否参与训练。默认情况下的权重是可训练的,会在每次反向传播后被更新。如果需要固定权重,可以通过设置、使用并设置或在优化器中排除这些参数来实现。

2025-04-12 23:00:34 1042

原创 Dockerfile文件构建镜像Anaconda+Python教程

在深度学习与自然语言处理领域,环境配置的复杂性常常成为开发者的痛点。本文将通过一个基于CUDA 12.1的深度学习环境Dockerfile实例,详解如何高效构建可复现的容器化开发环境,并结合Dockerfile最佳实践,助你掌握企业级镜像构建技巧。

2025-04-02 20:00:00 1345

原创 利用Pydantic的BaseModel简化Python中的数据处理

在开发过程中,我们经常需要处理来自不同源头的数据,这些数据可能包含各种格式和类型。确保数据的质量和一致性是构建健壮应用的关键之一。为了简化这一过程,提高代码的可维护性和可靠性,我们可以使用Pydantic库提供的`BaseModel`类。本文将简要介绍`BaseModel`的作用、适用场景,并通过实例展示其基本用法。

2025-03-19 14:13:04 1822

视觉基础模型+dinov3 demo+代码和权重+构建特征或蒸馏或分类或学习等

视觉基础模型+dinov3 demo+代码和权重+构建特征或蒸馏或分类或学习等

2025-12-24

ollama-docker compose安装文件内容

ollama-docker compose安装文件内容

2025-12-07

Manus+报告生成+中间文件内容

使用manus生成一份报告,该报告包含所有产生的文件内容,可供读者学习。以此可了解manus是逐阶段生成与整合范式,具体信息可参考资源文件,便于深入理解。

2025-05-13

PDFTriage论文的非结构化pdf文档内容

PDFTriage论文数据格式,可以大概知道数据集如何制作。碰到PDFTriage文章是来解决结构层次的文档,对PDF、网页和演示文稿等文档具有自然的结构,包括不同的页面、表格、章节等。将这些结构化的文档表示为纯文本与用户对这些具有丰富结构的文档的心理模型不一致。当系统需要查询文档以获取上下文时,这种不一致性尤为明显,即使是看似简单的问题也可能使QA系统出错。为了弥合这一处理结构化文档的基本差距,我们提出了一种名为PDFTriage的方法,使模型能够基于结构或内容检索上下文。

2025-05-12

C Primer plus 第五版(电子版带书签)

C Primer plus 第五版(电子版带书签)

2025-03-10

生成式 AI商业落地白皮书

生成式 AI商业落地白皮书

2025-03-06

3d检测-点云检测-深度估计+世界、相机、像素坐标相互转换+刚性运动+深度值转点云坐标、点云坐标转像素坐标、标签值转像素坐标方法

这是一个kitti数据集实验方法,包含深度值转点云坐标、点云坐标转像素坐标、标签值转像素坐标内容。 data:kitti数据格式内容 depth2velo.py:kitti深度图转相机坐标再到kitti格式的点云坐标,可用于深度估计方法 label_bbox2pixel_img.py:kitti的label如何转到像素坐标,可用于3d检测 lidar2pixel_img.py:kitti的点云坐标转到像素坐标逻辑,可用于自动驾驶 out_dir: python代码实现后保存结果内容 object+depth model: 是我用一个目标检测模型与深度估计模型结合生成展示效果,以及坐标转换结果 那么,本资源是一个kitti数据集探索内容,涉及标签label的3d如何转到像素坐标方法与逻辑,涉及kitti深度图如何转到相机坐标再到点云坐标(世界坐标),涉及kitti点云坐标转到像素坐标。你看明白这个代码,你明白如何将深度估计模型转为相机坐标再转到任意世界坐标。 当然,我们选择kitti数据,绝大多数有关3d模型都会使用,这样理解数据就更好理解模型。

2024-09-11

大语言模型+llama3+代码+学习可运行llama3代码

本项目基于Meta最新发布的新一代开源大模型Llama-3开发,是Chinese-LLaMA-Alpaca开源大模型相关系列项目(一期、二期)的第三期。本项目开源了中文Llama-3基座模型和中文Llama-3-Instruct指令精调大模型。这些模型在原版Llama-3的基础上使用了大规模中文数据进行增量预训练,并且使用精选指令数据进行精调,进一步提升了中文基础语义和指令理解能力,相比二代相关模型获得了显著性能提升。 我已将如何训练+推理以及vscode配置等内容放入文件夹,你可直接下载按照要求执行,以便进一步解读与学习。当然,我也会在博客解读代码细节,以此帮助大家对大语言模型理解。

2024-07-25

多模态大模型+llava教程token+input-ids-labels+模型输入格式

本篇文章直接介绍llava模型数据加工部分,整体结构说明llava多模态模型输入数据格式,其中包含input_ids/labels/attention_mask与image格式,并给出对应代码位置与整个数据加工流程。最重要,通过debug给出数据解释与代码解读,也通过一个真实数据给出模型输入格式说明。当你阅读完此篇文章,绝对透彻理解llava数据加工过程与内容。上一篇文章给出了数据处理大轮廓,本篇文章将解读LazySupervisedDataset类的__getitem__函数内容。 而该文件用于理解input_ids与labels如何生成。

2024-06-14

目标检测指标map+map计算代码+map计算列子(包含gt与pred输入)

“史上最全AP、mAP详解与代码实现”文章([这里](http://t.csdnimg.cn/VMSSn))已经介绍了map相关原理,且给出相应简单代码实现AP方法。然将AP计算融入模型求解AP结果,可能是一个较为复杂的工程量。恰好,我也有一些这样的需求,我是想计算相关DETR的map指标。我将构造一个即插即用计算map的相关模块代码,使用者只需赋值我的模块,即可使用。同时,为了更好快速使用,我将基于通用模型yolo为基准介绍map通用模块(你有疑问,yolo已有val.py可测试map,但yolo无法测出small、medium、large等相关AP或AP0.75等结果)。本文将直接介绍计算map核心代码简单列子,在此基础上介绍整个即插即用map计算模块使用方法与代码解读。该资源便是列子内容,可参考“史上最全AP、mAP通用代码实现(即插即用-基于yolo模型)”博客。

2023-12-24

RT-DETR+auto-train-detect+RTDETR-run

本文章基于客户一键训练与测试需求,我使用u公司的yolov8集成的RTDETR模型改成较为保姆级的``一键``操作的训练/预测方式,也特别适合新手或想偷懒转换数据格式的朋友们。本文一键体现数据格式为图像与xml,调用train.sh与detect.sh可完成模型的训练与预测。而为完成该操作,模型内嵌入xml转RTDETR的txt格式、自动分配训练/验证集、自动切换环境等内容。接下来,我将介绍如何操作,并附修改源码。 本文一个目的,傻瓜式训练与预测,通过sh脚本实现3个任务, ①、虚拟环境自动切换 ②、数据格式自动转换,输入为图像文件与对应xml文件自动完成rtdetr模型训练与预测数据格式 ③、模型自动训练与预测,且只需执行sh train.sh或 sh detect.sh即可实现

2023-12-21

目标检测+RTDETR+训练与预测代码

使用Ultralytics公司的yolov8版本集成RTDETR模型,可用于训练与预测。本文件包含如何训练的命令与预测py代码及权重和数据集,可直接执行进行训练或预测。

2023-12-19

vscode-main+deepspeed进行debug+vscode配置deepspeed环境debug代码

最近在研究deepspeed相关内容,但使用命令方式无法单步调式调用代码的问题,若直接离线看代码,在一定程度上降低效率。同时,使用deepspeed方式debug代码内容较少。为此,我特意在少有信息中和代码实验验证完成基于vscode对deepspeed进行debug方法。特别的,该方式不仅适合deepspeed命令debug,也适用torchrun命令debug,更能延伸其它命令debug模式。本文内容分为三部分,第一部分介绍如何使用vscode传递参数debug;第二部分介绍如何使用deepspeed进行debug;第三部分介绍vscode通用命令方式进行debug。 原文解说:https://editor.csdn.net/md?not_checkout=1&spm=1001.2014.3001.9614&articleId=134992123

2023-12-14

CV-gronding-dino,tag2text,ram,ram++-原文重点翻译-论文解读

随着SAM模型分割一切大火之后,又有RAM模型识别一切,RAM模型由来可有三篇模型构成,TAG2TEXT为首篇将tag引入VL模型中,由tagging、generation、alignment分支构成,随后才是RAM模型,主要借助CLIP模型辅助与annotation处理trick,由tagging、generation分支构成,最后才是RAM++模型,该模型引入semantic concepts到图像tagging训练框架,RAM++模型能够利用图像-标签-文本三者之间的关系,整合image-text alignment 和 image-tagging 到一个统一的交互框架里。作者也介绍将tag引入Grounding DINO模型,可实现目标定位。为此,本文将介绍这四篇文章。

2023-12-09

CogVLM论文+翻译

尽管部分博客已对CogVLM论文有解读,但总归是夹杂自己理解内容,也不好快速与原文对照。介于此,我在原文重要部分添加了个人翻译笔记,为更多想快速阅读朋友很好提供参照,若有喜欢可自行下载使用。

2023-11-28

文本提取+文本关键词标注+利用词库匹配文本关键词

这个一个传统简单python脚本,用于处理基于已有词库匹配文本中存在的关键词查找。

2023-11-15

NLP(BERT)+vocab.txt+中/英文转token+内容转模型识别符号

NLP语言模型、多模态模型等的中/英文编码字符map表,此文件来源bert模型内容,可供读者查看其内容。

2023-10-13

yolov5+auto-train-detect+yolov5-run

本文章基于客户一键训练与测试需求,我将yolov5模型改成较为保姆级的``一键``操作的训练/预测方式,也特别适合新手或想偷懒转换数据格式的朋友们。本文一键体现只需图像文件与xml文件,调用train.sh与detect.sh可完成模型的训练与预测。而为完成该操作,模型内嵌入xml转yolov5的txt格式、自动分配训练/验证集、自动切换环境等内容。接下来,我将介绍如何操作,并附修改源码。

2023-09-14

yolov5部署+onnx-cpp-tensorrt+onnx的yolov5部署源码

本资源属于我的cuda专栏教程是C++版本基于onnx的yolov5部署代码。而我教程介绍如下: 随着人工智能的发展与人才的内卷,很多企业已将深度学习算法的C++部署能力作为基本技能之一。面对诸多arm相关且资源有限的设备,往往想更好的提速,满足更高时效性,必将更多类似矩阵相关运算交给CUDA处理。同时,面对市场诸多教程与诸多博客岑子不起的教程或高昂教程费用,使读者(特别是小白)容易迷糊,无法快速入手CUDA编程,实现工程化。 因此,我将结合我的工程实战经验,我写了CUDA系列教程专栏,帮助读者(或小白)实现CUDA工程化,掌握CUDA编程能力。学习我的教程专栏,你将绝对能实现CUDA工程化,完全从环境安装到CUDA核函数编程,从核函数到使用相关内存优化,从内存优化到深度学习算子开发(如:nms),从算子优化到模型(以yolo系列为基准)部署。最重要的是,我的教程将简单明了直切主题,CUDA理论与实战实例应用,并附相关代码,可直接上手实战。我的想法是掌握必要CUDA相关理论,去除非必须繁杂理论,实现CUDA算法应用开发,待进一步提高,将进一步理解更高深理论。

2023-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除