• 博客(128)
  • 收藏
  • 关注

原创 LlamaFactory春节特供:AI 精准拿捏对联格律,告别对仗翻车

如今大语言模型早已能写文、答惑、创作,可面对对联这种讲究格律、对仗、意境的传统文体,通用大模型却屡屡 “水土不服”。问题的核心,在于模型缺少足量优质的对联专业样本,没能真正吃透中文对仗的规则。而微调(Fine-tuning)恰好能补上这一课:无需从零打造新模型,只需让现有大模型基于高质量对联数据 “拜师学艺”,就能掌握格律与意境的创作要领。借助LlamaFactory微调工具,大模型也能精准拿捏对联的对仗之美、平仄之韵,写出既有文化底蕴又贴合新春氛围的合格对联,让 AI 也能为传统年俗添上一笔新意。

2026-02-11 14:01:40 1431

原创 大模型训练全流程实战指南工具篇(七)——EasyDataset文档处理流程

本文详细介绍了EasyDataset工具在大模型训练数据预处理中的应用。作为专为领域数据集构建设计的工具,EasyDataset实现了从文献解析到数据集构造的全流程闭环,具备智能文献处理、领域标签体系、智能数据生成等核心功能。 文章重点讲解了: 安装配置流程,支持Windows/macOS/Linux系统 文本处理核心步骤: 支持Markdown/PDF/DOCX/TXT格式 提供多种智能分块策略(固定长度/递归/Markdown结构/代码分块)

2026-02-27 15:21:04 746

原创 大模型训练全流程实战指南工具篇(六)—OCR工具实战指南(以DeepSeek-OCR-2为例)

本文以DeepSeek-OCR-2为例,详解其核心特性、本地部署及vLLM推理实战。并延伸后处理策略,涵盖数据清洗、RAG优化到多模态检索,打通从“读出来”到“用起来”的全链路,为高质量数据集构建提供实战指南。有了OCR工具等统一格式后,接下来数据处理流程的重要工作就是构建数据集了,下篇内容笔者将分享当前通用的数据处理工具EasyDataset, 大家敬请期待~

2026-02-27 15:10:32 868

原创 通用4D世界模型NeoVerse面世:单目视频秒变4D大片,推理提速8倍

来自中科院自动化所(CASIA)与CreateAI的研究团队联合发布了最新的通用4D世界模型——NeoVerse。该模型彻底打破了以往4D建模对专业多视角数据或复杂位姿预处理的依赖,通过学习互联网上100万条“野外”单目视频,实现了从视频重建到高保真生成的跨越式进化。

2026-02-15 09:00:00 907

原创 GDPO:多目标强化学习高效优化新路径

论文聚焦多奖励强化学习中的优化方法问题,指出现有 GRPO 算法在多奖励场景下会导致奖励信号坍缩、训练信号丢失,进而引发收敛次优或训练失败。为此,提出 GDPO 算法,通过对单个奖励分别进行组归一化并结合批次优势归一化,保留跨奖励差异并维持数值稳定性。在工具调用、数学推理、代码推理三大任务的实验验证中,GDPO 在正确性、约束遵守度等指标上均持续优于 GRPO 及其实验变体,同时提供了通过奖励权重调整与条件化奖励函数应对目标难度差异的优先级建模方案,为语言模型契合多样化人类偏好提供了更稳定、高效的优化框架。

2026-02-14 12:00:00 1458

原创 DataFlow:用自然语言自动准备LLM数据

该论文提出LLM驱动的统一数据准备框架DataFlow,旨在解决当前LLM数据准备碎片化、标准化缺失的问题。框架含近200个可复用算子与6类领域通用流水线,采用类PyTorch编程接口,支持模块化、可调试的数据处理。通过DataFlow-Agent,可将自然语言指令自动转化为可执行流水线。实验表明,其在文本、数学推理、代码等任务上表现优异,Text-to-SQL执行准确率提升3%,代码基准平均提升7%,10K样本数据集性能超越1M规模数据集,为数据中心型AI发展提供系统级基础。

2026-02-13 07:00:00 672

原创 兰大&港科大团队揭秘视频推理瓶颈

该论文聚焦于开放网络环境下的视频深度推理任务,针对现有多模态评估中视频推理能力薄弱、深度研究基准多以文本为核心、缺乏对视频线索与开放网络证据联合推理评估的研究缺口,提出了首个视频深度研究基准VideoDR。

2026-02-12 08:00:00 396

原创 云端部署 OpenClaw:打造 24 小时“数字生命”助手

谁还在被AI“画大饼”?写邮件要自己点发送,列待办要自己去执行,看似智能实则只是 “嘴炮工具”,根本落不了地。但 2026 年初这款现象级 AI 产品的出现,彻底改变了这一现状 —— 它就是被网友亲切称为「那只龙虾」🦞的,一款真正能 “动手办事” 的。从Clawdbot到Moltbot,再到如今的OpenClaw,这款开源AI智能体框架在短短一个月内,,朋友圈、开发者社区全是它的身影,TechCrunch、Forbes等外媒争相报道,成为2026年初最现象级的AI产品。

2026-02-11 18:01:39 1718

原创 复旦等提出突破视频生成长度极限新模型

该论文提出了 LongVie 2,一款多模态可控超长视频世界模型,旨在解决现有视频生成模型在长时生成中存在的可控性不足、视觉质量退化与时间一致性差的核心问题。模型采用三阶段渐进式训练策略:通过融合稠密(深度图)与稀疏(关键点)控制信号提升语义级可控性;引入退化感知训练弥合训练与长时推理的领域差距;借助历史上下文引导及多频率损失函数保障跨片段时间连贯性。同时,构建了包含 100 个一分钟以上高分辨率视频的 LongVGenBench 基准数据集,为超长可控视频生成提供标准化评估工具。

2026-02-11 14:46:39 540

原创 浙大开源datamind搞定数据分析

Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study

2026-02-11 14:26:43 750

原创 浙大新研究让LVLMs懂版权、守规矩

研究系统揭示了LVLMs在版权合规方面的普遍短板,通过构建专用基准与提出CopyGuard框架,为解决多模态场景下的版权侵权问题提供了有效方案,验证了工具增强型方法在提升模型版权合规性上的可行性与优越性。

2026-02-11 14:25:38 806

原创 山大提出攻克视频大模型时间理解短板新方案

现有问题主要包括两方面:一是缺乏专用时间敏感指令微调数据,现有数据集侧重通用场景泛化,部分生成式数据集适用范围有限难以支撑深度时间推理;采用本文方法微调后,4个视频-LLMs在多数基准测试集上表现显著提升,尤其在时间理解专用基准(如TIMEBench、MVBench)上效果突出,且不损害通用任务性能。首先,构建含 34,000 个样本的 TIME 指令微调数据集,覆盖动态、推理、时长、位置、顺序五大时间维度,并通过去偏策略剔除数据捷径;作者团队-中文:山东大学、山东建筑大学、香港城市大学、快手。

2026-02-11 14:25:06 240

原创 4 步生成高清视频,Wan2.2 + LightX2V 强强联手的正确打开方式

在高显存 GPU 场景下,这套能把视频生成从分钟级等待拉到接近即时迭代,画质较高,而且显存代价可控,属于典型的工程上非常划算的加速方案。工业落地优先:如果你有 H100 等算力资源,这套组合的价值非常直接——等待时间可缩短约4.5×,同时显存仍保持在80GB 安全线内,适合追求吞吐与迭代效率的生产环境。向更多显卡推广的关键:要覆盖更广泛设备,下一步应把重心放在Quantization(量化)+ 显存工程,目标是把占用压到档位;一旦达成,4 步极速采样的优势才能在更多卡型上释放出来。性价比明确。

2026-02-11 14:07:37 745

原创 当我用 AI 工具将论文转为漫画后,我发现真是太好用了

这篇论文开创了以“Transformer 为骨架、预训练为核心、大规模并行为支撑”的 AI 新范式,其影响力已延伸至多模态、机器人、自动驾驶等多个前沿领域。近日,知名 AI 研究者田渊栋在社交平台上分享了一次有趣的尝试:他使用 nano banana 与 NotebookLM 将一篇学术论文转化为可视化漫画,并直言“这比我自己做的海报好多了”。只需上传 PDF 格式的论文,系统即可自动生成高质量的主题漫画。在接下来的内容中,我们将陆续介绍更多高效、有趣的论文可视化 AI 工具,助你轻松玩转学术表达。

2026-02-05 11:00:14 701

原创 答疑解惑 |「论文头号玩家」论文复现活动常见问题合集,一看就懂 ~

回答:大多数论文会将其代码发布到 GitHub 或其他平台上,因此你需要阅读论文,并且找到代码仓库的链接,链接通常在附加在论文末尾或摘要部分。找到论文提供的 GitHub 开源代码后,您需要查看项目中是否有清晰的 README 文件,介绍如何配置环境、安装依赖、运行代码等。如果您有特别想复现的、符合活动主题(AI 顶会论文)的其他论文,也欢迎在提交 Issue 时提出,审核通过后即可进行。回答:可以更换,您需要在 gitlink 提交任务的入口这里,输入新的新论文信息。

2026-02-03 16:48:59 849

原创 大模型训练全流程实战指南工具篇(五)——大模型训练全流程步骤详解与对应工具推荐

数据阶段训练阶段与评测阶段。每个阶段又可进一步细分为若干关键步骤。数据工程主要包括文本采集、文本过滤、文本清洗与去重及数据集构建等步骤。训练工程若从零开始设计模型,通常需经历选择基础架构、确定模型规模、设计模型结构与功能,随后进行预训练、监督微调(SFT)及强化学习对齐(RLHF)等步骤。然而,完全从头训练需消耗海量数据与巨额算力(例如数十亿条数据与数十台服务器并行),这对中小团队或个人开发者而言往往难以承担。因此,更常见的做法是在已有的预训练模型基础上,进行增量预训练微调和强化学习。

2026-02-02 17:55:36 997

原创 清华 + 快手联合提出 FilmWeaver 框架,攻克多镜头视频生成一致性难题

摘要:清华大学与快手团队联合提出FilmWeaver框架,解决多镜头视频生成的一致性问题。该框架采用双层缓存机制:时间缓存确保镜头内动作连贯性,镜头缓存维持跨镜头视觉一致性。通过四阶段推理流程支持从首镜头生成到多镜头叙事的全流程创作,并构建高质量多镜头数据集进行验证。实验表明,FilmWeaver在角色一致性(74.61%)、文本对齐(23.07%)等指标上显著优于现有方法,能稳定保持角色外观和背景细节。该研究为AI视频生成提供了新的解决方案,未来可进一步优化数据规模和生成效率。

2026-01-28 17:22:17 672

原创 聚焦中文核心能力!LLaMA-Factory 驱动 CT-LLM 微调全流程实践

本文探讨了使用LLaMA-Factory微调ChineseTinyLLM(CT-LLM)-2B模型的中文核心能力提升方法。通过整合高质量中文数据集COIG-CQIA和OL-CC,以及英文数据集OpenHermesPreferences,设计了三种中英文数据配比方案。实验采用Qwen2.5-7B进行数据质量评估,使用困惑度指标过滤噪声数据。微调结果显示,中英2:1配比方案在BLEU-4和ROUGE指标上表现最优,既提升了中文表达能力,又保留了英文逻辑推理能力。文章还介绍了LLaMA-Factory的完整微调流

2026-01-26 16:07:13 652

原创 手把手教你进行论文复现,小白也能学会,赶紧收藏

复现 ≠ 复制粘贴!它是用原作者公开的技术细节、实验步骤、代码仓库和数据集,自己动手重新实现,验证论文结果是否可重复的过程。简单说,就是跟着论文的“说明书”,亲自跑一遍实验,既能吃透论文核心逻辑,又能练编程、调参技能,还能检验研究成果的可靠性,毕竟学术研究的本质就是“可验证、可推广”。修改 inference.py 中的输入图像路径、编辑提示词等参数,重新运行可以看到获得不同的输出结果。论文复现的环境配置是一项系统性的工作。前期筛选:用“三查”原则,查信息完整性、查代码一致性、查资源可行性。

2026-01-23 17:23:02 914

原创 大模型训练全流程实战指南基础篇(四)——本地部署大模型API调用实战:Python对接OpenAI格式全解析

如今的大模型就像是一个功能强大的“万能API”,能够通过简单的接口调用即可实现诗歌创作、问题解答、代码编写甚至哲学思辨等复杂任务。实现这一切的关键,在于一套标准化的调用方式——即笔者今天要深入介绍的OpenAI格式。OpenAI格式如今已成为绝大多数主流大模型API调用的事实标准,它如同AI领域的“通用语言”或“普通话”,使得不同厂商、不同架构的大模型能够以统一的通信方式与用户交互,极大地降低了开发者的学习和集成成本。本文系统分享了如何通过OpenAI格式调用本地大模型。

2026-01-22 10:39:03 592

原创 DeepSeek 提出 mHC,改造何恺明残差连接

DeepSeek提出mHC框架改造残差连接,解决传统Hyper-Connections(HC)在训练稳定性、扩展性和系统开销方面的问题。通过将残差映射投影到双随机矩阵流形并施加非负约束,mHC恢复了恒等映射特性,同时结合基础设施优化降低系统开销。实验显示,mHC在27B模型训练中消除了HC的损失突增现象,梯度范数保持稳定,并在多项任务上性能优于基线模型,BBH任务提升2.1%,且仅增加6.7%时间开销。该研究为大模型训练提供了更稳定的残差连接框架。

2026-01-21 17:57:12 565

原创 中央音乐学院联合研究:视频自动配乐还卡点

中央音乐学院等机构联合提出VeM系统,通过分层视频解析和潜空间音乐扩散模型实现视频自动配乐。该系统从视频中提取全局语义、分镜结构和转场时间点作为结构化条件,利用分镜引导对齐确保音乐段落与视频内容同步,并通过转场-节拍对齐强化卡点效果,解决了传统配乐中情绪不匹配、节奏不同步等问题。研究成果已开源,为视频配乐提供了更精准的自动化解决方案。

2026-01-21 17:32:54 366

原创 西北工业大学 StereoMV2D 突破 3D 物体检测深度难题,精度与效率兼得

西北工业大学团队提出StereoMV2D框架,解决多视图3D物体检测中深度模糊与计算效率的平衡问题。该方法创新性地将时序立体建模融入稀疏查询检测范式,通过运动感知软匹配建立跨帧关联,仅在物体RoI区域进行立体计算,并采用动态置信门控机制智能选择测量方案。相比传统密集代价体方法,该框架在保持高效性的同时显著提升了深度感知精度,为自动驾驶等场景提供了更可靠的3D检测解决方案。

2026-01-20 14:53:22 381

原创 清华联合字节刷新 3D 头像技术!FlexAvatar 实现 “少图输入 + 高保真动态” 双重突破

清华大学与字节跳动联合研发的FlexAvatar技术实现3D头像重建重大突破。该技术通过创新性的结构化头部查询令牌和UV空间解码器设计,仅需单张或少量照片即可生成高保真动态3D头像,无需传统方法所需的专业设备拍摄或多角度照片。研究成果解决了现有技术存在的保真度不足、动态表情不自然、处理时间长等问题,同时支持10秒级快速微调优化。该技术有望大幅降低3D头像制作门槛,为虚拟现实、社交娱乐等领域提供更便捷高效的解决方案。

2026-01-20 14:43:31 87

原创 AAAI 2026 | 西北工业大学提出 YOLO-IOD,实时增量目标检测新框架

西北工业大学提出的YOLO-IOD框架解决了YOLO模型在增量目标检测中的关键问题。该框架通过冲突感知伪标签精炼(CPR)避免前景-背景混淆,基于重要性的核选择(IKS)减少参数干扰,以及跨阶段非对称知识蒸馏(CAKD)解决知识蒸馏错位。同时,论文提出了更贴近实际的LoCoCOCO评测基准,消除了数据泄露问题。实验表明,YOLO-IOD在单步和多步增量任务中均取得最优性能,在保持实时检测速度的同时,显著降低了知识遗忘问题。该工作为实时增量目标检测提供了实用解决方案。

2026-01-20 13:54:01 749

原创 从 0 到 1 落地智能家居 AI 交互:LLaMA Factory & Qwen3-4B 微调实战指南

摘要:本文介绍基于Qwen3-4B模型的智能家居AI交互微调实战方案。针对通用大模型在智能家居场景中的精度不足、响应延迟等问题,项目构建了从数据工程到模型落地的完整流程。通过LLaMAFactory框架对繁体中文智能家居指令数据集进行标准化处理,重点解决条件判断失效问题。微调后的模型在设备指令解析、条件触发等任务中展现出精准的任务识别能力和结构化输出适配性,其JSON格式输出可直接对接智能家居中控系统。文章还提供完整复现流程,包含环境准备、数据处理、模型微调等步骤,并推荐相关学习课程资源。

2026-01-19 17:04:18 685

转载 大模型训练全流程实战指南基础篇(三)——大模型本地部署实战(Vllm与Ollama)

本文详细介绍了两种大模型本地部署方案:面向生产环境的VLLM部署和适合个人快速体验的Ollama部署。VLLM方案具有高性能推理、高吞吐量等优势,适合Linux系统;Ollama方案则简单易用、硬件要求低,支持Windows系统。文章从环境准备、部署步骤到调用示例逐步展开,并解释了模型量化原理。通过本地部署,用户可以更好地保障数据安全、控制服务稳定性并降低长期成本。此外,还提供了优化技巧和参数配置建议,帮助读者在不同场景下搭建自己的大模型服务。

2026-01-19 10:31:19 136

转载 大模型训练全流程实战指南基础篇(二)——大模型文件结构解读与原理解析

本文系统解读了大模型的文件结构与工作原理。首先介绍了大模型研究的常用平台HuggingFace和ModelScope,并以Qwen3-8B为例详细解析了模型文件的组成,包括权重文件(.safetensors)、配置文件(config.json)、分词器文件(tokenizer.json)等。文章深入剖析了大模型生成文本的自回归原理,展示了从输入分词到Token预测的完整流程。通过实战代码演示了模型加载、对话模板应用、Token转换及文本生成的完整过程。最后预告了下期内容将介绍模型部署为API服务的相关技术,

2026-01-16 15:35:09 66

转载 大模型训练全流程实战指南(一)——为什么要学习大模型训练?

本文探讨了学习大模型训练的必要性和方法。随着大模型技术的快速发展,掌握其训练流程不仅能深入理解技术本质,还能构建专业优势。学习价值体现在:满足垂类应用需求、助力学术研究、提升职业竞争力。文章将大模型训练比作学生培养过程,包括数据处理、预训练、指令精调和强化学习等阶段,并对比了训练与RAG技术的区别。作者提供了一套从基础到实战的系统学习框架,包含知识理解、工具掌握和实战训练三个层次,并计划涵盖强化学习和智能体开发等前沿内容。通过本系列教程,读者可全面掌握大模型训练技能,从技术使用者转变为创造者。

2026-01-16 15:30:43 50

原创 【项目复现上新】多模态 AI 数字人上线,Linly-Talker 让你与苏东坡面对面!

【摘要】Lab4AI推出基于Linly-Talker开源项目的多模态苏东坡数字人,实现与历史人物的沉浸式互动。该系统整合LLM、ASR、TTS及语音克隆技术,通过Gradio网页界面支持语音对话、视频生成等功能。用户无需本地配置,在Lab4AI平台即可体验与数字苏东坡探讨诗词哲理。项目采用模块化设计,可扩展至李白等历史人物,适用于教育、文博等场景。新用户注册可获6.5小时H800 GPU体验时长及代金券福利。(149字)

2026-01-15 13:48:42 626

原创 上海交通大学破解声音分离与提取的核心难题

上海交通大学团队提出USE统一模型,创新性地融合声音分离(SS)和目标声音提取(TSE)技术。该模型通过EDA吸引子网络自动推断声源数量,结合多模态线索网络处理文字、视频等多种指令,实现"全自动分离"与"按需提取"的智能切换。实验显示其在SS任务上性能提升1.4dB,目标提取准确率达86%,且具有高稳健性和线性增长的计算效率。这一突破为自动驾驶、视障辅助等应用提供了更强大的声音处理能力,显著提升了AI在复杂声学环境下的"听力"水平。

2026-01-14 16:23:40 347

原创 LLama-Factory官方课程答疑汇总+课程内容升级(多模态实战)

本文总结了LLaMA-Factory大模型微调工具使用中的常见问题及解决方案,包括权限设置、数据集上传、Flash Attention安装、训练异常处理等技术难点。课程《从零开始玩转LLaMA Factory》已升级新增多模态实战内容,提供作者亲授、配套算力资源和专家答疑等早鸟福利。文章旨在帮助开发者规范高效地解决大模型微调过程中的实际问题,提升项目推进效率。

2026-01-13 14:16:31 642

原创 寻找百万「论文头号玩家」计划 | 首批复现体验官开放申请,最高可获500元算力金

Lab4AI与GitLink联合推出"论文头号玩家"计划(2025.1.12-2026.3.28),为科研学习者提供AI算力+开源生态支持。活动包含论文复现(顶会SOTA/经典论文)、创意玩法(漫画/播客等形式)和提效实践三大板块,面向本科生、研究生和开发者。参与者可获得算力补贴(50-100元)、开源项目经验及科研能力提升。平台提供复现指导、充足GPU资源,并保障作品版权不受影响。通过实战将论文理论转化为可运行代码,助力科研学习从理论到实践的跨越。

2026-01-12 15:10:54 797

原创 榨干H100算力!GLM-4.6V×vLLM 极致推理实战:从9B到106B MoE的全链路优化

不止于“跑通”,更要“极致”.大模型部署的核心,不是能跑就行,而是把硬件潜力发挥到极致。这是一套可直接用于生产环境的部署方案:既能承载 MoE 权重,也能稳住长文本场景,同时让 MoE 的推理性能真正跑出来。这套方案不仅适用于GLM-4.6V,更可迁移到其他VLM模型,为高并发多模态服务提供了可直接落地的参考。如果你也在部署大模型时遇到算力浪费、显存不足等问题,不妨试试这套方案,让你的 H100 真正“物超所值”!关注“大模型实验室​Lab4AI”,第一时间获取前沿 AI 技术解析!

2026-01-07 17:13:27 356

原创 科研党狂喜!PaperDebugger 让 AI 在编辑器内帮你写完论文

新加坡国立大学团队开发了PaperDebugger插件系统,通过多智能体协作实现论文写作全流程辅助。该系统深度集成在Overleaf编辑器中,提供实时写作、审阅和编辑功能,支持自动优化语句、智能查找文献等操作,避免了传统写作工具频繁切换的问题。研究团队于2025年12月发布该成果,为科研人员提供了高效的AI辅助写作解决方案。

2025-12-29 16:22:09 188

原创 告别修图翻车!阿里 Qwen 团队 & 港科大提出 Qwen-Image-Layered ,面向内在可编辑性的图层分解

阿里Qwen团队与港科大提出Qwen-Image-Layered模型,通过图像分层分解解决视觉生成模型编辑一致性问题。该模型将图像分解为多个RGBA图层,实现元素独立编辑而不影响其他内容,支持缩放、移动等基本操作。相比传统平面光栅图像,这种分层表示有效避免了语义漂移和几何错位问题,为复杂场景提供高保真编辑方案。研究成果发表于2025年12月17日,相关论文可通过Lab4AI平台获取。

2025-12-29 16:05:32 245

原创 港大团队提出 DeepCode ,让 Agent 真能“读论文写可运行代码”

港大团队提出DeepCode框架,突破AI读论文写代码的瓶颈。该研究针对现有代码生成智能体难以复现完整可运行项目的痛点,提出结构化处理方案:通过分层切片论文内容生成项目蓝图(Blueprint),利用CodeMem维持多文件一致性,借助CodeRAG补充缺失细节,最后通过自动化验证确保可执行性。在PaperBench基准测试中,DeepCode以73.6%的准确率显著优于商用Agent(43.3%)和人类专家(72.4%)。研究证明,通过优化信息流而非单纯扩大模型规模,能在有限上下文内实现稳定可复现的代码生

2025-12-29 15:44:24 614

原创 为什么你开了多卡,训练反而更慢?

摘要: 多机多卡训练虽能解决显存不足和训练速度问题,但实际应用中常出现卡数增加而训练效率提升有限甚至变慢的现象。原因在于多卡并行时,算力被拆分为计算、通信和同步三部分,新增算力可能被同步等待消耗。有效加速需满足单步计算耗时远大于通信、模型规模与算力匹配等条件。优化方向包括高速GPU互联、细粒度调度和算力感知能力。多机多卡并非万能,需根据实际负载合理决策,避免算力浪费。(149字)

2025-12-26 10:10:19 714

原创 小模型驱动大智能:NVIDIA 新研究实现 2.5 倍效率提升,成本直降 70%

NVIDIA与港大团队提出ToolOrchestra框架,通过训练小型语言模型作为智能编排器,动态协调多种工具完成复杂任务。该研究将多工具任务建模为马尔可夫决策过程,采用强化学习优化任务完成效果、效率和用户偏好。实验表明,该方法在保持性能的同时实现2.5倍效率提升和70%成本降低,并发布ToolScale数据集支持相关研究。这一"小模型驱动大智能"的范式为构建低成本、可扩展的AI系统提供了新思路。

2025-12-25 13:46:09 355

原创 数小时视频,关键仅几秒:AI 如何像侦探一样找到答案?LongVT:先定位再核验,精准不瞎猜

《LongVT:基于工具调用的长视频推理智能体框架》提出了一种创新的AI长视频理解方法。该研究由MiroMindAI与南洋理工大学领衔,联合多所高校共同完成。针对传统视频问答模型在数小时长视频中难以定位关键片段的痛点,研究团队设计了模仿人类"浏览-聚焦-验证"思维的iMCoTT推理范式,并构建了包含24.7K样本的VideoSIAH数据集。通过三阶段训练策略(监督微调+强化学习+强化微调),最终模型LongVT-7B-RFT在多个基准测试中表现优异,特别在证据稀疏场景下较次优模型提升约6

2025-12-25 11:13:57 956

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除