- 博客(594)
- 收藏
- 关注
原创 一个多智能体Text2SQL框架,使用小语言模型和执行反馈
本研究提出的多智能体Text2SQL框架(MATS)通过创新的架构设计,成功解决了小语言模型在复杂文本到SQL任务上面临的泛化能力不足的难题。基准数据集上的评估表明,部署在单GPU服务器上的MATS框架,仅用极少的参数量即可实现与大型语言模型相媲美的准确率。这一成果不仅验证了通过精巧的系统设计与训练策略能够极大弥补模型规模差距的技术路径,更从工程实践层面为广泛的企业级应用提供了关键启示:在数据安全与成本控制至关重要的现实场景中,基于开源小模型构建的、可私有化部署的高性能Text2SQL系统是完全可行的。
2025-12-31 10:23:34
375
原创 如何构建一个模型,将企业特定的知识集可视化展示,并可以据此引导用户进行有针对性的提问?
构建一个能将企业特定知识集可视化并引导用户提问的系统,可以结合知识图谱(Knowledge Graph)、自然语言处理(NLP)和交互式前端界面来实现。新员工入职:点击“IT设备申请” → 查看流程图 + 自动生成问题:“需要哪些审批人?前端库:D3.js、Cytoscape.js、Vis.js、ECharts(关系图)内部文档(PDF、Word、PPT、Wiki、Confluence)边:关系(如“属于”、“负责”、“依赖于”、“适用于”)实体识别(NER)、关系抽取(RE)、关键词提取。
2025-12-31 10:19:16
715
原创 生成式数字孪生:可执行工业系统的视觉语言仿真模型
本研究提出一种视觉语言仿真模型(Vision-Language Simulation Model, VLSM),该模型通过统一视觉与文本理解能力,能够依据布局草图与自然语言提示生成可执行的FlexScript代码,从而为工业仿真系统实现跨模态推理。此项工作为生成式数字孪生奠定了基础,将视觉推理与语言理解能力整合至可执行的工业仿真系统中。本研究通过构建VLSM模型与大规模多模态数据集,首次实现了从视觉草图与自然语言提示到可执行仿真代码的端到端生成,为工业数字孪生系统引入了“生成式”新范式。
2025-12-30 09:05:21
134
原创 如何有效整合文本、图像等不同模态信息,提升模型跨模态理解与生成能力
有效整合文本、图像等不同模态信息,以提升模型的跨模态理解与生成能力,是当前多模态人工智能(Multimodal AI)研究的核心问题。大规模多模态预训练:利用海量图文对(如LAION、COCO、Conceptual Captions)进行自监督学习。对齐困难(Alignment):如何在语义层面建立跨模态对应关系(如“狗” ↔ 狗的图像)。通用多模态基础模型:如GPT-4V、Gemini,支持文本、图像、音频、视频等任意组合。生成一致性:跨模态生成(如图文生成)需保持语义一致性和细节真实性。
2025-12-30 09:01:23
945
原创 大模型如何赋能智能制造
大模型(Large Models),特别是以大语言模型(LLM)和多模态大模型为代表的通用人工智能技术,正在深刻赋能智能制造(Smart Manufacturing),推动制造业向更高效、柔性、智能和可持续的方向演进。生产调度优化:大模型可整合历史生产数据、设备状态、订单信息等,通过强化学习或推理能力,生成最优排产方案。质量预测与控制:结合传感器和视觉数据,大模型可实时识别缺陷模式,预测产品质量问题,并提供改进建议。结合因果推理,不仅能预测“何时坏”,还能解释“为什么坏”及“如何修”。
2025-12-29 15:24:47
514
原创 大型视觉语言模型下的异常链思维
该方法通过引入多智能体推理架构,在思维链中显式嵌入归纳性犯罪偏差,并设置异常导向的最终分类层,从而主动引导模型识别非常规线索。实验表明,CoAT显著提升了模型在复杂监控场景下的感知能力:在低分辨率视频中异常检测F1分数提升11.8%,高分辨率视频中异常分类精度提升3.78%。(Chain-of-Anomaly-Thoughts,简称CoAT)——一种多智能体推理框架,该框架通过最终聚焦异常的分类层,在推理过程中引入归纳性犯罪偏差。在高分辨率视频的异常分类任务中,性能也提升了3.78个百分点。
2025-12-29 15:21:09
270
原创 大模型的私有化部署细节
大模型(如 LLM,Large Language Models)的私有化部署是指将原本运行在公有云或第三方平台上的大模型,部署到企业或组织内部的私有环境(如本地服务器、私有云、边缘设备等),以满足数据安全、合规性、定制化和低延迟等需求。量化(Quantization):FP16 → INT8/INT4,降低显存占用和推理成本(如使用 GGUF、AWQ、GPTQ)开源模型(如 Llama 系列、Qwen、ChatGLM、Baichuan、Falcon、Mistral 等)Qwen 可商用但需注明来源)。
2025-12-26 11:21:34
427
原创 用大型语言模型进行复杂相对局部描述的地理定位
在训练数据量固定的条件下,我们的方法优于现有基准模型,在不同数据集中平均有65%的记录定位在10公里半径范围内。该方法通过大模型对非结构化文本中多层次、多参照物的复杂空间关系(如“路口东北角红色建筑后的街心公园”)进行深度语义解析与空间推理,将其转化为机器可理解的结构化地理查询,并与多源地理信息数据进行动态关联与验证。实验表明,该方法在开放场景中显著提升了基于模糊描述的定位成功率与精度,为下一代智能地理信息系统、无障碍导航及沉浸式数字孪生应用提供了关键技术支持,推动了人机自然交互与空间智能计算的深度融合。
2025-12-26 11:13:10
207
原创 多智能体系统 + 语法搜索:解锁智能协作新范式
本项工作中,我们提出了一个更结构化的框架,它通过一组固定的、简单的、可组合的组件来探索同一空间。实验表明,尽管在候选生成阶段缺乏大语言模型所具有的生成灵活性,但我们的方法在两个领域(数学和问答)共五项基准测试中的四项上,表现优于先前的方法。此外,我们的方法还具有其他优势,包括搜索过程成本效益更高,以及能够生成逻辑更简单、模块化、可解释的多智能体系统。深度强化学习 / 强化学习培训 / 数字孪生培训 / 大模型培训 / 智能体培训 / 具身智能培训。
2025-12-25 14:25:39
487
原创 基于多智能体深度强化学习的高炮反无人机算法
针对日益增长的无人机集群威胁,传统防空方法在应对高机动、低慢小目标时面临决策滞后的挑战。该方法将多门高炮构建为分布式智能体,通过集中训练-分散执行的框架,使其在共享战场态势信息的基础上,学习协同火力分配、目标交接与射击诸元优化的策略。算法利用深度确定性策略梯度(DDPG)或近端策略优化(PPO)等机制,使智能体集群能在动态对抗环境中自适应调整战术,有效提升对无人机饱和攻击的拦截效率与系统生存能力。仿真结果表明,该算法在应对多批次、不规则突防的无人机群时,显著优于基于规则的固定策略。
2025-12-25 10:24:03
487
原创 多智能体无人协同控制综述
多智能体无人协同控制是人工智能与自主系统交叉领域的核心方向,旨在通过多智能体间的交互协作,实现无人机、无人车等无人系统集群在复杂动态环境中的高效、鲁棒任务执行。相关综述系统梳理了该领域的核心问题与方法体系,主要包括分布式感知与信息共享、协同任务分配与规划、集群编队与一致性控制、人机混合协同等关键技术,并分析集中式、分布式及混合式等主流控制架构的优劣。随着强化学习、群体智能等前沿技术的发展,该领域正从预设规则驱动向自适应、可解释的智能协同演进,在军事侦察、灾害救援、物流配送等场景展现出广阔应用前景。
2025-12-25 10:22:30
102
原创 面向图像处理逆问题的扩散模型研究综述
图像处理逆问题(如去噪、超分辨率、修复等)旨在从退化观测中重建原始图像,传统方法常受限于不适定性和先验建模的复杂性。扩散模型作为一种新兴的深度生成范式,通过模拟数据在噪声与信号间的双向扩散过程,为逆问题提供了强大的概率重构框架。本综述系统梳理了扩散模型在图像逆问题求解中的研究进展:首先阐释其基于随机微分方程的理论基础;继而分类讨论基于条件生成、得分匹配等技术的重建方法;最后总结其在医学成像、遥感、计算摄影等领域的应用,并探讨当前面临的稳定性、效率等挑战与未来发展方向。
2025-12-24 09:59:26
147
原创 数据驱动下的反导装备体系效能评估建模与仿真
随着导弹攻防对抗日趋复杂,传统基于经验的评估方法难以全面反映反导装备体系在动态作战环境下的整体效能。本研究聚焦数据驱动技术,通过融合多源仿真与试验数据,构建覆盖探测跟踪、拦截决策、火力协同等多环节的效能评估模型。采用基于Agent建模、系统动力学等方法对体系交互过程进行动态仿真,量化分析装备配比、指挥规则、对抗策略等变量对体系整体作战能力的影响。研究成果可为反导体系优化设计、作战能力评估和装备发展论证提供量化决策支持,推动效能评估向精准化、智能化方向发展。
2025-12-24 09:57:09
198
原创 多模态大模型理解物理工具吗?PhysToolBench提出了衡量多模态大模型对物理工具理解的基准
等多维度的测试任务,要求模型回答工具如何工作、为何适用特定场景等需物理常识的问题。其创新在于构建了一个结构化的评估体系,将抽象的“物理理解”转化为可量化、可比较的具体指标,从而为开发更贴近现实世界、具备实用物理推理能力的下一代模型提供了关键的评估基础和前进方向。当前,多模态大模型在文本和图像理解上表现卓越,但其对物理世界的理解——尤其是对日常工具的功能、使用场景及物理原理的认知——仍是一个开放挑战。该基准旨在衡量模型对物理工具的深层理解,而非简单识别。,这是一个全新的基准测试。
2025-12-23 10:48:54
142
原创 牛津大学等提出Memo:Transformer强化学习记忆效率提升10倍,具身智能体泛化能力更强!
传统Transformer在处理序列决策任务时,因其自注意力机制对完整历史序列的依赖,导致内存消耗随序列长度平方级增长,严重限制了其在复杂环境与长程任务中的应用。Memo的核心突破在于重构了记忆机制,通过复用和压缩历史信息,将关键记忆存储于固定大小的外部记忆中,使得智能体能够高效访问长期经验,从而将内存消耗降低了一个数量级。这一改进不仅大幅提升了训练与推理效率,更使“具身智能体”在从未见过的任务中展现出更强的泛化与适应能力,为开发更高效、更通用的智能决策系统开辟了新的路径。
2025-12-22 10:17:35
136
原创 国防科技大学智能科学学院、清华大学计算机科学与技术系联合研究| 多智能体风险决策理论与方法研究综述
随着无人集群、协同作战等技术的快速发展,多智能体系统在动态、不确定及高风险环境下的协同决策已成为关键挑战。传统方法往往难以在效率、鲁棒性与风险约束之间取得平衡。当前研究深度融合强化学习、博弈论与分布式优化,重点探索在部分可观测、信息受限及存在对抗的条件下,如何实现智能体间的风险感知、量化与协同规避。未来,研究需进一步向开放动态环境拓展,强化决策的可解释性与安全性,并推动其在军事指挥控制、智能交通等高风险复杂场景中的可靠应用,为构建自主、稳健的群体智能提供理论基石。
2025-12-22 10:15:23
210
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅