- 博客(162)
- 收藏
- 关注
原创 详解AI-Agent中的MCP(Model Context Protocol),与function call的区别与联系
摘要: MCP(Model Context Protocol)与Function Call在工业级AI-Agent架构中存在本质差异。Function Call是模型调用工具的具体动作(如结构化指令执行),而MCP是管理工具调用与上下文的协议层,相当于AI Agent的“操作系统”。 核心区别: 抽象层级:Function Call关注单次工具调用(动作层),MCP管理多轮调度、状态、权限等(协议层)。 能力范围:MCP涵盖上下文治理、工具路由、记忆管理等,Function Call仅解决“调用哪个函数”。
2026-06-24 19:11:55
235
原创 AI-Agent中的function-call包括哪些及如何协作完成任务
AI-Agent 中的函数调用(Function Call)是将大模型升级为可操作系统的核心机制。它包括工具调用(如搜索、计算、API等)、任务规划、记忆管理、决策推理、环境执行和反思评估六大类功能。这些函数通过协作流程(感知→规划→执行→观察→循环)完成任务,其本质是让模型动态调度外部工具并形成多轮调用图。关键设计思想在于统一工具接口、模型驱动控制流、构建函数调用有向图以及观察驱动的推理。最终使AI系统从文本生成器转变为具备执行能力的智能体。
2026-06-24 19:06:18
258
原创 AI Agent 主流设计模式详解
本文详解了AI Agent的五种主流设计模式:ReAct(推理与行动交织)、Reflection(自我反思与迭代)、Planning(先规划再执行)、Tool Use(调用外部工具)和Multi-Agent(多智能体协作)。这些模式可组合使用,形成不同复杂度的解决方案。ReAct是最基础的模式,通过思考-行动-观察的循环推进任务;Reflection通过生成-评审-改进提升输出质量;Planning将复杂目标分解为子任务执行;Tool Use扩展了Agent的能力边界;Multi-Agent则通过分工协作处
2026-06-23 19:36:16
425
原创 AI Agent中的function call详解
本文系统解析了AI Agent中function call(函数调用/工具调用)的核心机制与实践要点。关键点包括:1)模型仅输出结构化调用请求,实际执行由宿主程序完成;2)完整调用回路包含工具注册、模型决策、宿主执行、结果回传和最终回答五个步骤;3)工具定义(Schema)的质量直接影响调用准确性,需明确名称、描述和参数规范;4)进阶功能如并行调用、多步循环等支持复杂任务;5)工程实践中需防范参数幻觉、提示注入等风险。该技术通过结构化请求-执行-反馈循环,使大模型从文本生成器升级为能操作外部世界的智能体。
2026-06-23 19:15:58
449
原创 AI Agent 智能体是什么
AI Agent(智能体)是一种能自主完成目标的智能系统,具备感知、推理、规划、执行等能力。其核心模块包括环境感知、任务拆解、工具调用、记忆存储和反馈优化,通过循环迭代实现目标。常见类型有问答型、工具型、工作流型、多智能体系统和具身智能体,可应用于信息检索、自动化任务、机器人控制等场景。AI Agent通过自主决策和持续优化,展现出比传统AI更强的任务处理能力。
2026-06-22 19:18:13
333
原创 mllm中的输入与输出映射器
本文介绍了多模态模型的核心组件——输入映射器和输出映射器的工作原理。输入映射器将文本、图像、音频等不同模态数据编码到统一语义空间(如通过Text Encoder、ViT、Audio Encoder等),输出映射器则将共享表示解码为目标模态(如用LM Head生成文本、Diffusion Decoder生成图像)。二者通过空间一致性约束(如对比学习)确保不同模态的语义对齐。文中还提供了可视化示例,展示文本、图像、音频如何经映射器转换后,在共享空间中交互并生成目标结果。这种架构实现了跨模态的理解与生成能力。
2026-06-22 19:09:36
264
原创 SigLIP / EVA-CLIP 做下游任务的代码实践
本文介绍了在 PyTorch + transformers + open_clip 环境下使用 SigLIP 和 EVA-CLIP 模型进行图像分类和图文检索的实践指南。主要内容包括: 环境准备:推荐安装相关库及模型选型建议,包括 SigLIP 2 和 EVA-CLIP 等不同规模的模型。 Zero-Shot 图像分类: 演示了使用 SigLIP 2 和 EVA-CLIP 进行图像分类的代码实现 特别指出 SigLIP 使用 sigmoid 而非 softmax 的重要区别 强调 bf16 推理和固定长度填
2026-06-18 17:59:07
343
原创 BLIP-2 / CoCa / BEiT-3 / Qwen-VL的多任务模型损失函数设计细节
本文分析了四种主流多模态大模型(CoCa、BEiT-3、BLIP-2、Qwen-VL)的多任务平衡策略。这些模型通过不同方法解决多任务冲突问题:CoCa采用架构解耦和固定损失权重;BEiT-3统一任务为掩码建模并利用专家网络;BLIP-2通过注意力掩码切换和分阶段训练;Qwen-VL则将所有任务统一为语言建模格式并采用三阶段训练。核心趋势包括:(1)从显式任务平衡转向任务统一;(2)更精细的架构解耦;(3)分阶段训练成为主流;(4)保留预训练模型能力越来越受重视。这些方法为平衡多模态任务提供了重要参考。
2026-06-18 17:40:59
377
原创 多模态预训练中,平衡不同预训练任务优化目标的策略
多模态预训练中的多任务平衡面临梯度尺度差异、收敛速度不同和任务冲突等核心挑战。主流策略包括固定加权求和、不确定性加权、GradNorm、梯度投影、任务采样和架构解耦等方法。固定加权实现简单但需大量调参,动态方法如不确定性加权和GradNorm理论清晰但计算开销大,架构解耦缓解任务干扰但增加参数量。实践中,大规模预训练常采用分阶段训练、固定加权、架构解耦和数据平衡的组合策略。建议先通过固定权重和监控损失曲线排查问题,中小规模可尝试动态方法,大规模训练优先考虑分阶段和架构解耦等实用组合。
2026-06-18 17:22:21
344
原创 BEV系列方法详解
本文系统梳理了BEV(鸟瞰图)感知任务的主流方法,重点分析了Fast-BEV的定位与特点。BEV任务本质是将多传感器数据转换为统一的俯视3D网格表示,核心挑战在于视角转换和几何建模。论文对比了Lift-Splat-Shoot/BEVDet(显式深度)、BEVFormer(Transformer隐式建模)和DETR3D(查询式)三类方法,指出Fast-BEV通过结构化几何投影替代复杂attention机制,实现计算轻量化:1)解耦视角变换为可优化算子;2)采用显式几何先验和轻量采样;3)使用CNN替代Tran
2026-06-17 18:24:16
531
原创 LSS原理详解及动态展示图
LSS(Lift-Splat-Shoot)是一种将多摄像头图像转换为BEV鸟瞰图特征的方法,核心流程包括:通过CNN提取图像特征并预测像素深度分布(Lift),将3D视锥特征投影到BEV网格(Splat),最后在BEV空间完成检测、分割或规划任务(Shoot)。其优势在于结构清晰、支持多相机融合且端到端训练,但存在深度估计不准、远距离目标识别难等缺陷。后续改进主要围绕提升深度估计精度和BEV特征质量展开。该方法为Camera-only的自动驾驶感知提供了有效解决方案。
2026-06-17 17:06:33
327
原创 多模态大模型常用微调方法:LoRA 与 P-Tuning 原理解析
摘要: 多模态大模型(如LLaVA、Qwen2-VL)因全参数微调成本高,普遍采用参数高效微调(PEFT)方法。主流方案包括: LoRA:通过低秩矩阵分解(ΔW=BA)学习权重增量,冻结原参数,仅训练少量新增参数,在工业界广泛应用; P-Tuning:通过可训练Prompt向量编码任务知识(P-Tuning v2扩展为多层Deep Prompt),适用于轻量场景(如医疗影像)。 对比:LoRA修改权重矩阵,适合中大规模数据;P-Tuning仅调整输入Prompt,参数更少但表达能力较弱。当前多模态领域以Lo
2026-06-16 14:48:50
208
原创 思维树(Tree of Thoughts, ToT)详解
摘要: 思维树(ToT)是对传统思维链(CoT)的扩展,将线性推理升级为图结构(搜索树或一般图),增强探索与决策能力。ToT的核心是LLM+图搜索+状态评估: 节点代表中间推理状态,边表示思维动作(如数学操作); 通过BFS、DFS或Beam Search等算法并行探索多路径,避免CoT单一路径的容错性缺陷; 进一步发展为Graph of Thoughts(GoT),支持状态复用和网状推理,更贴近人类思维; 在数学、创业分析等任务中,ToT通过生成候选方案、动态评估和选择最优路径提升效果。 这种框架已成为现
2026-06-16 13:56:54
160
原创 端到端自动驾驶 BEV stack
本文摘要(145字): 自动驾驶技术正从传统感知→规划流水线演进为端到端BEV架构,核心思想是将多传感器输入统一转换为BEV世界表征,直接输出轨迹/动作序列。系统包含BEV编码器、时序BEV记忆、决策网络等模块,通过世界建模和策略网络替代传统模块化流程。主流实现分Tesla纯视觉、Waymo混合和NVIDIA方案三类,采用模仿学习、多任务学习和强化学习进行训练。该架构面临延迟、稳定性和安全保障等工程挑战,需配合数据闭环持续优化,代表了自动驾驶向更紧密耦合的系统演进趋势。
2026-06-16 10:39:10
467
原创 在多模态模型中如何有效处理模态缺失(Modal-Missing)问题
多模态模型缺失模态问题及处理方法 多模态模型常面临模态缺失问题(如传感器故障、数据损坏等),可分为训练缺失、测试缺失或两者同时缺失三类。处理方法包括: 模态随机丢弃:训练时主动模拟缺失,提升模型鲁棒性; 显式缺失标记:引入缺失掩码或模态令牌,区分真实零值与缺失; 掩码感知融合:融合层动态跳过缺失模态,避免分布偏移; 共享-特异特征分解:分离模态共享与独有信息,缺失时依赖共享特征; 跨模态重建:通过可用模态生成缺失模态的隐表示; 知识蒸馏:用完整模态模型指导缺失模态学生模型; 参数高效适配:通过轻量模块(如A
2026-06-15 10:55:04
299
原创 目前多模态生图的主流方案
多模态图像生成技术综述 多模态图像生成技术已从单一文本输入发展为融合文本、图像、视频等多种输入形式的综合系统。当前主流方案可分为七类:1)文本到图像生成(如Stable Diffusion、DALL·E);2)可控生图(通过ControlNet等技术实现边缘、深度等条件控制);3)图像到图像转换(包括风格迁移、局部编辑等);4)参考图驱动生成(保持角色/商品一致性);5)MLLM+生图模型组合(语言模型负责理解,扩散模型负责渲染);6)原生统一多模态生成(将不同模态统一为token预测);7)3D/视频生成
2026-06-15 10:43:47
436
原创 跨模态对比学习原理与挑战
把不同模态中语义一致的样本拉近,把语义不一致的样本推远。统一多模态语义空间提升 zero-shot 能力增强图文/音文/视频文本检索为 MLLM 提供视觉-语言预对齐能力图文噪声假负样本语义粒度不匹配缺少局部 grounding语言共现偏置hard negative 不足计算成本高细粒度关系理解弱专业长尾类别不足跨模态对比学习能让模型知道“图像和文本是否语义相关”,但要让 MLLM 少幻觉,还必须进一步加入区域级对齐、困难负样本、反事实监督、grounding 和验证机制。
2026-06-15 10:36:57
779
原创 通过后处理校正来减少MLLMs中幻觉的方法-推理阶段
本文提出了一种减少多模态大语言模型(MLLM)在推理阶段产生幻觉的后处理方法。该方法通过将原始回答拆解为可验证的声明(claim),利用视觉检测工具进行证据回查,并根据验证结果对回答进行修正。具体包括:1)将回答细化为可验证的子声明;2)调用外部视觉工具验证每个声明;3)基于规则对未验证声明进行删除、替换或降级处理;4)采用如Woodpecker等多阶段校正框架;5)让模型通过自反馈循环修正答案;6)利用多候选答案一致性校验;7)使用对比解码抑制语言先验;8)监控注意力信号触发重检;9)引入外部知识库验证事
2026-06-15 10:21:55
365
原创 mllm训练过程中有效地利用辅助监督信号来减少幻觉的方法
摘要: 减少多模态大模型(MLLM)幻觉的关键在于引入精细化辅助监督信号,包括视觉定位监督(如物体框、属性标签)、负样本训练(显式标注不存在内容)、偏好学习(区分低/高幻觉回答)、细粒度片段标注(标记错误词)、专用模型蒸馏(检测/分割/OCR)以及对比学习(增强图文一致性)。通过多任务联合优化(如生成损失+定位损失+对比损失),模型能更严格绑定文本与视觉依据,抑制虚构对象、错误属性和推理错误。RLHF-V等研究表明,仅需千级标注数据即可显著降低幻觉率,尤其在医疗、工业等高风险场景中,细粒度监督效果更优。
2026-06-12 18:14:03
379
原创 改进模型架构来减少MLLMs中的幻觉现象
摘要:为解决多模态大语言模型(MLLMs)的幻觉问题,核心思路是强化视觉证据的细粒度访问,减少对语言先验的依赖。具体方法包括:1)增强视觉编码器,采用高分辨率或动态分辨率ViT,保留细节;2)引入对象级视觉token(如检测框、OCR),结构化视觉信息;3)改进视觉-语言连接器,使用交叉注意力或动态门控机制;4)注意力校准,监控并调整视觉注意力权重;5)增加视觉验证分支,生成后检查证据支持;6)结合检索增强(RAG),查询外部知识库;7)建模不确定性,允许模型拒答低置信问题。推荐架构整合多尺度编码、对象级t
2026-06-12 17:56:08
396
原创 缓解MLLMs幻觉现象的方法
缓解 MLLMs 幻觉不能只靠一句 prompt,通常要从多层组合。MLLM 幻觉本质是“输出文本与图像/视频内容不一致”,包括对象不存在、属性错误、关系错误、计数错误、OCR 错误、时序错误和专业知识错误等。相关综述也指出,幻觉已成为 MLLM 实际部署中的可靠性障碍,需要从成因、评估和缓解策略系统处理。
2026-06-11 19:26:20
221
原创 评估MLLMs幻觉现象的基准及分别侧重点(使用场景)
这篇摘要总结了视觉语言模型(VLM)幻觉评估基准的分类体系,重点分析了不同层级幻觉的检测方法: 对象存在性幻觉:核心基准包括CHAIR、POPE和NOPE,通过二元判断检测模型是否虚构不存在对象,适合基础评估但覆盖有限。 属性关系幻觉:MME、AMBER等基准扩展评估维度,检测颜色/数量/空间关系等细粒度错误,比单纯对象检测更贴近实际需求。 开放式回答幻觉:MMHal-Bench、GAVIE等采用生成式评估,结合LLM裁判衡量长文本回答的忠实性,但存在评估一致性问题。 系统性诊断基准:HallusionBe
2026-06-11 19:17:30
331
原创 CenterPoint 3D 目标检测详解
本文系统介绍了CenterPoint,一种基于中心点的3D目标检测与跟踪方法。其核心思想是将3D目标表示为BEV平面中心点,并回归尺寸、高度、朝向和速度等属性。文章详细解析了CenterPoint的8阶段流程:点云输入、体素化/Voxel化、特征编码、Backbone处理、Center Head多任务预测(热力图、偏移、高度、尺寸、朝向、速度)、Top-K解码和后处理。重点对比了Sparse 3D和Pillar+2D两种Backbone方案的优缺点,并阐述了高斯热力图监督机制和由Heatmap Focal
2026-06-10 16:53:26
382
原创 3D点云目标检测(PointPillars)部署pipeline
本文介绍了一个面向KITTI 3D目标检测的PointPillars部署工程。该工程支持从PyTorch checkpoint拆分导出ONNX模型,并提供ONNXRuntime/MNN推理、结果诊断、BEV/相机图可视化与输出对齐等功能。文章详细说明了项目架构、关键配置参数、环境部署要求以及模型准备流程,包括如何从checkpoint导出拆分ONNX模型并进行简化优化。同时提供了PyTorch参考推理脚本用于验证模型正确性。该工程采用模块化设计,将PointPillars模型拆分为多个可部署组件,并配套可视
2026-06-10 15:48:46
502
原创 MLLM不同模态对齐方法详解及代码实现
本文探讨了多模态数据对齐与融合的关键技术,涵盖时间、空间、语义三个对齐层次,并介绍了统一维度映射的多种方法(线性投影、MLP投影、Adapter等)。文章系统梳理了早期、中期、后期三种主流融合策略及其适用场景,包括自动驾驶、机器人感知、边缘部署等实际应用。同时提供了工程选型建议、常见问题解决方案及PyTorch实现参考,为多模态系统设计提供全面指导。
2026-06-05 18:18:03
524
原创 PointPillars 3D 目标检测详解
PointPillars是一种高效的3D目标检测方法,适用于自动驾驶和机器人LiDAR感知任务。其核心创新是将稀疏点云转换为BEV伪图像:在XY平面划分柱体(pillar),每个pillar覆盖整个高度范围,避免了3D卷积的计算开销。方法流程包括:点云范围裁剪、pillar划分、通过PointNet编码pillar特征、散射为BEV伪图像,最后使用2D CNN进行检测。相比传统方法,PointPillars通过简化3D处理(不切分Z轴)、共享MLP特征提取和2D卷积实现了高效推理,特别适合工程部署。典型检测
2026-06-05 10:13:32
310
原创 CRNN + CTC OCR 原理详解
本文系统介绍了CRNN+CTC模型在OCR文本识别中的核心原理和应用。主要内容包括:1)模型通过CNN提取图像特征、BiLSTM进行序列建模、CTC处理对齐问题;2)CTC机制通过blank符号解决重复字符识别和不定长对齐难题;3)模型训练只需整行文本标签,无需字符级标注;4)详细解析了网络结构、输入预处理、特征序列转换等关键环节;5)提供了PyTorch中CTCLoss的实现方式和两种解码策略。该方案适用于车牌识别、工业喷码等端侧OCR场景,具有轻量化和部署便捷的优势,特别适合处理不同长度文本行的识别任务
2026-06-04 13:54:29
838
原创 多模态大模型微调中如何避免灾难性遗忘
摘要: 多模态大模型在特定领域微调时易出现灾难性遗忘,表现为语言能力、视觉理解、跨模态对齐和指令跟随能力的退化。遗忘主要由语言模型、视觉编码器、投影层和数据分布变化共同导致。缓解策略包括: 数据层:混合新旧领域数据,保留通用样本(如20%通用数据可显著缓解退化);使用回放缓冲(Replay Buffer)覆盖多样化任务。 参数层:优先采用LoRA/QLoRA微调,冻结视觉编码器,分层设置学习率(如投影层2e-4,LLM LoRA 1e-4)。 损失层:引入KL正则或知识蒸馏,约束模型输出与原模型分布一致。
2026-06-04 10:18:34
337
原创 SFT 过程及技巧详解
本文介绍了监督微调(SFT)的概念、目标、数据格式、流程及其与预训练的区别。SFT通过让模型学习"指令-答案"对,使其能够按要求输出,常用于优化预训练后的语言模型。文章详细阐述了SFT的核心目标(最大化标准答案概率)、典型数据格式(单轮指令、多轮对话、结构化输出),并提供了完整的SFT流程指南,包括明确训练目标、选择基座模型、数据收集与清洗、去重、构造训练模板以及Loss Mask设计等关键步骤。SFT对于提升模型的任务执行和指令跟随能力至关重要。
2026-06-03 18:31:23
596
原创 PPOCR5.0详解及部署
PP-OCRv5是PaddleOCR 3.x中的新一代轻量级OCR系统,采用检测+识别的两阶段架构。相比前代PP-OCRv4,通过数据中心化训练策略,在检测和识别任务上分别提升约13个百分点。系统包含mobile和server两种模型规格,分别适用于移动端/嵌入式设备和服务端场景。关键创新在于采用22.6M高质量多样化训练数据,覆盖多语言、复杂场景(手写、竖排、古籍等)和多种文本形态,而非单纯扩大模型规模。工程部署支持完整pipeline或独立使用检测/识别模块,适合文档、票据等场景OCR需求。
2026-06-03 17:59:30
849
原创 BatchNorm 和 LayerNorm详解及适用场景
BatchNorm和LayerNorm是深度学习中两种重要的归一化方法。BatchNorm通过跨样本对同一通道进行归一化,适合CNN任务,但对batch size敏感;LayerNorm则在单个样本内部进行归一化,不依赖batch,更适合Transformer和变长序列任务。BatchNorm训练推理行为不一致,LayerNorm则保持一致。BatchNorm适合大batch训练,LayerNorm在小batch和在线推理中表现更优。两者各有适用场景,选择取决于具体任务需求。
2026-06-02 18:58:13
380
原创 PostNorm和PreNorm优缺点及适用场景
Transformer中的PostNorm和PreNorm主要区别在于LayerNorm的位置:PostNorm在残差连接后进行归一化(LayerNorm(x + Sublayer(x))),而PreNorm在子层输入前归一化(x + Sublayer(LayerNorm(x)))。PostNorm在原始Transformer中使用,每层输出更稳定但训练深层模型时梯度容易不稳定;PreNorm通过保持残差路径直接使训练更稳定,尤其适合深层模型和大规模预训练,但可能限制模型表达能力。PostNorm需要仔细调
2026-06-02 18:39:07
345
原创 DPO和PPO详解及区别
PPO与DPO对比摘要 PPO和DPO均用于大模型偏好对齐,但方法差异显著: PPO:基于强化学习,需先训练奖励模型,通过策略优化(限制更新幅度)最大化奖励,适合复杂交互任务(如Agent、机器人),但训练链路复杂、成本高且易出现奖励作弊。 DPO:直接利用偏好数据(chosen/rejected对)优化模型,无需显式奖励模型或强化学习采样,流程更简单、稳定且成本低,但依赖高质量偏好数据,覆盖能力有限。 核心区别: PPO需在线采样和奖励模型,适合动态任务;DPO为离线优化,适合指令微调。 PPO灵活但难调
2026-06-02 18:33:19
302
原创 联合标定内外参需要重新标定的情况
相机分辨率修改对内外参的影响 修改相机分辨率通常无需重新标定外参(如T_lidar_camera),但需调整内参矩阵K。内参可通过原始参数与缩放比例(sx=W_new/W_old)计算:fx'=sx*fx,cx'=sx*cx,畸变参数D一般不变。 常见场景处理: 等比例缩放:直接按比例更新K,外参不变。 中心裁剪:主点坐标平移(cx'=cx-x0),焦距不变。 Binning/ROI:需结合缩放与裁剪计算。 注意事项: 非等比例缩放可能导致图像变形,影响投影精度。 镜头更换、调焦或模组拆装需重新标定内外参。
2026-06-01 15:19:11
239
原创 多模态技术目前的主要挑战
多模态AI面临十大核心挑战:数据质量与标注成本高、跨模态对齐困难、多模态幻觉频发、时空推理能力不足、长视频理解受限、评测体系不完善、计算成本过高、安全隐私风险突出、可解释性差以及系统集成复杂。这些问题导致模型在真实场景中易出现偏见、误判和安全隐患。当前研究重点转向数据治理、跨模态一致性、长时序推理等方向,强调需构建"模型+规则+工程"的闭环系统。未来突破点在于提升复杂环境下的稳定性、可解释性和部署效率,而非单纯追求基础能力。(149字)
2026-06-01 10:32:42
368
原创 多模态技术在主要 AI 应用领域中的应用分析与工程落地建议
多模态 AI 是指能够处理、对齐、融合或生成两种及以上信息模态的人工智能技术体系。模态类型数据形式典型信息文本指令、描述、OCR 文本、文档、代码语义、规则、知识、交互目标图像RGB 图、医学影像、商品图、遥感图外观、颜色、空间结构、目标类别视频连续图像帧、动作序列、监控片段时序行为、事件发展、交互过程音频 / 语音ASR 输入、环境声音、机器异常声语言内容、声学事件、设备状态深度 / 点云RGB-D、LiDAR、结构光三维几何、距离、可通行空间雷达 / 热红外。
2026-05-29 19:14:58
506
原创 ViT 与 MAE 在图像特征提取方面的优势详解
ViT(Vision Transformer)是一种基于Transformer架构的视觉骨干网络,通过将图像切分为Patch序列并利用自注意力机制建模局部与全局关系。MAE(Masked Autoencoder)是一种自监督预训练方法,通过随机遮挡大量图像Patch并重建缺失内容,提升特征质量。ViT擅长全局关系建模,同时提供全局和局部特征,适用于多任务扩展和高分辨率微调,但存在小数据训练不稳定、高分辨率计算成本高等局限。MAE能有效利用无标签数据降低标注压力,迫使模型学习更鲁棒的语义特征。两者结合可显著提
2026-05-29 18:39:49
328
原创 BERT 与 GPT-3 模型结构及语言理解/生成能力对比
BERT与GPT-3的核心差异在于模型架构与任务定位。BERT采用双向Transformer编码器,通过掩码语言建模学习文本理解能力,适合分类、匹配和信息抽取任务;GPT-3使用自回归解码器,通过预测下一个token实现文本生成,擅长对话、写作等生成式任务。二者在参数量(BERT-Large 3.4亿 vs GPT-3 1750亿)、注意力机制(双向 vs 因果)和训练目标(掩码预测 vs 自回归)上存在本质区别,导致BERT更擅长语义理解,而GPT-3在生成任务上表现突出。
2026-05-27 19:16:28
466
原创 相机-雷达标定:ChArUco / ArUco + 四圆孔刚性板
摘要 本文对比分析了多款LiDAR-Camera外参标定开源项目,重点推荐基于ArUco+四圆孔刚性板的FAST-Calib方案。该方案采用四ArUco标记和四圆孔设计,支持机械式和固态LiDAR,通过自动提取特征点实现高效标定。其ROS2移植版本FAST-Calib-ROS2可直接应用于机器人项目。文章详细介绍了算法流程、支持能力及适用场景,为传感器融合提供了可靠的外参标定解决方案。
2026-05-27 14:36:20
444
原创 多传感器融合感知中的视锥体创建
在机器人 SLAM / costmap / OpenVDB / 3D 避障中,传感器视锥模型的作用是描述:它通常用于:1. 视锥模型在系统中的位置简单说:机器人系统里至少有 3 个关键坐标系:常见变换:如果一个点在传感器坐标系中为:转换到 map 坐标系:反过来,如果要判断地图中的某个 voxel 是否在传感器视野内:3. 相机 / 深度相机视锥模型对于 RGB-D 相机、双目相机、深度相机,最常用的是 针孔相机模型。相机内参矩阵:其中:像素点:深度:反投影到相机坐标系:也可以
2026-05-21 17:36:56
481
PointPillars-Deploy-Python.zip
2026-06-10
yolo26-traffic-count-project-bytetrack
2026-04-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅