- 博客(917)
- 收藏
- 关注
原创 美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
近日,美团 LongCat 团队正式对外发布并开源 LongCat-Flash-Thinking-2601。作为已发布的 LongCat-Flash-Thinking 模型的升级版,LongCat-Flash-Thinking-2601 在 Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型 SOTA 水平。
2026-01-20 09:37:28
1805
5
原创 AAAI 2026 | 美团技术团队学术论文精选
AAAI 是人工智能领域顶级的国际学术会议,本文精选了【美团技术团队】被收录的8篇学术论文(附下载链接),覆盖大模型推理、 退火策略、过程奖励模型、强化学习、视觉文本渲染等多个技术领域,欢迎一起交流学习~
2026-01-13 15:10:02
730
原创 KuiTest:基于大模型通识的UI交互遍历测试
美团质效技术部联合复旦大学周扬帆教授团队推出KuiTest——零规则UI功能性异常测试工具。KuiTest通过将“人类预期”直接用作Test Oracle,解决了长期以来UI测试Oracle泛化性差的自动化痛点。实验表明,KuiTest异常召回率达86%,误报率仅1.2%,已在执行21万+测试用例,发现百余例有效缺陷,大幅降低人工成本并提升测试覆盖率。
2026-01-13 13:41:18
853
原创 2025 美团技术团队热门技术文章汇总
提前祝大家新年快乐,感谢这一路上,每一位伙伴的并肩前行与坚定支持。今年,我们精选了18篇具有代表性的技术文章,内容涵盖大模型开源、研发技能、产品服务三大方向。愿大家在新年里,奔赴更高、更远的山海~
2025-12-29 10:59:02
4867
1
原创 美团 LongCat-Video-Avatar 正式发布,实现开源SOTA级拟真表现
LongCat 团队针对实际场景中的核心痛点持续优化,正式发布并开源 SOTA 级虚拟人视频生成模型 ——LongCat-Video-Avatar。该模型基于 LongCat-Video 基座打造,延续 “一个模型支持多任务” 的核心设计,原生支持 Audio-Text-to-Video(AT2V)、Audio-Text-Image-to-Video(ATI2V)及视频续写等核心功能,同时在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的显著突破,为开发者提供更稳定、高效、实用的创作解
2025-12-23 14:32:08
1594
原创 大模型剪枝新范式:先浓缩,再剪枝——DenoiseRotator技术解读
美团智能交互团队联合上海交通大学听觉认知与计算声学实验室,以及香港科技大学的研究者,共同完成了大模型剪枝方法的创新研究,提出了名为DenoiseRotator的新技术。通过首先对参数矩阵进行变换,“将知识和推理能力浓缩到由少量参数组成的子网络内”,“再裁剪掉子网络外的参数”,实现了大模型剪枝的新范式。
2025-12-19 15:01:03
1013
原创 美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源SOTA
美团 LongCat 团队正式发布并开源 LongCat-Image 模型,通过高性能模型架构设计、系统性的训练策略和数据工程,以6B参数规模,成功在文生图和图像编辑的核心能力维度上逼近更大尺寸模型效果,为开发者社区与产业界提供了 “高性能、低门槛、全开放” 的全新选择。
2025-12-09 15:05:50
870
原创 AI Coding与单元测试的协同进化:从验证到驱动
AI生成代码质量难以把控!本文分享来自美团的技术实践,三大策略破解AI编程痛点。单测快速验证逻辑正确性,安全网保护存量代码演进,TDD模式精准传递需求。告别「看起来没问题」的错觉,构建AI时代的代码质量保障体系。
2025-12-05 13:52:51
979
转载 复旦 NLP&美团 LongCat 联合提出长程推理能力评测与增强新框架
基于此方法,我们构建了R-HORIZON Benchmark用于系统性评估 LRMs 的多步推理能力,同时生成了长链推理训练数据,通过强化学习(RLVR)提升模型性能。所有模型随问题数量增加均出现明显性能下降。这些真实场景要求模型具备跨任务的长链推理能力——不仅要解决单个子问题,更要在多个关联任务间保持推理—致性、合理分配计算资源、实现跨步骤的反思与纠错。R-HORIZON 提出了问题组合(Query Composition)方法,通过构建问题间的依赖关系,将孤立任务转化为复杂的多步骤推理链。
2025-11-27 19:59:08
355
转载 LongCat 发布 AMO-Bench:重新定义 LLM 数学上限
参照国际数学竞赛官方竞赛大纲,题目被划分为五大类:代数方程与不等式(11 题,占比 22%)、函数与数列(13 题,占比 26%)、几何(5 题,占比 10%)、数论(9 题,占比 18%)、组合数学(12 题,占比 24%),覆盖数学奥赛核心知识点,考察模型在不同领域是否存在能力短板。表现最优的 GPT-5-Thinking(High)正确率仅 52.4%,且大部分模型表现低于 40%,即便头部闭源模型,也未突破 “及格线”,凸显 IMO 级难度的原创题对当前 AI 的挑战性;
2025-11-27 19:59:08
336
转载 美团 LongCat Interaction 团队发布大模型交互系统技术报告 WOWService
LongCat团队正式发布——「WOWService 大模型交互系统技术报告」,深度拆解了 「数据与知识双驱动」「自我优化训练」「四阶段训练流水线」「多 Agent 协同」 四大核心技术框架,希望对行业发展提供参考与启发。
2025-11-20 19:59:21
342
原创 美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地
针对 Speech LLM 落地中的音频处理难题,美团 LongCat 团队正式开源专用语音编解码方案 LongCat-Audio-Codec。真正让语音大模型既 “听懂” 语义,又能够“说清” 。
2025-11-14 10:28:08
1171
转载 美团 LongCat 团队发布全模态一站式评测基准UNO-Bench:揭示单模态与全模态能力的组合规律
该基准通过科学的评测框架,首次揭示了多模态智能并非简单的线性叠加,而是遵循着一种乘积规律,这一规律在能力较弱的模型上体现为瓶颈限制,而在顶尖模型上则表现为协同增益的特性,这个全模态大模型的“组合定律”为行业提供了一种全新的、跨越模型规模的分析范式。为实现自动化评估,LongCat团队还提出了一个通用评分模型,通过对问题类型进行细分(如图7所示),并结合人工和自动标注多轮质量迭代的数据集(如图6所示),使其能够支持6种通用问题类型的自动评分,在分布外的模型和基准测试中达到了95%的准确率。
2025-11-13 19:59:29
324
原创 LongCat-Flash-Omni正式发布并开源:开启全模态实时交互时代
LongCat-Flash系列再升级,美团正式发布全新家族成员——LongCat-Flash-Omni,在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni 是业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 于一体的开源大语言模型。
2025-11-03 15:15:53
1012
转载 VitaBench:基于复杂生活场景的交互式 Agent 评测基准
美团 LongCat 团队正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含 66 个工具的交互式评测环境,并进行了跨场景的综合任务设计。
2025-11-03 10:24:59
410
转载 LongCat-Video 视频生成模型正式发布,探索世界模型的第一步
作为基于 Diffusion Transformer(DiT)架构的多功能统一视频生成基座,LongCat-Video 创新通过 “条件帧数量” 实现任务区分 —— 文生视频无需条件帧、图生视频输入 1 帧参考图、视频续写依托多帧前序内容,原生支持三大核心任务且无需额外模型适配,形成 “文生 / 图生 / 视频续写” 完整任务闭环。同时,从根源规避色彩漂移、画质降解、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性,完美适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。
2025-10-27 10:25:15
391
原创 ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享
本文介绍了美团技术团队在国际顶会ICCV 2025中发表的5篇论文。同时,在ICCV 2025 举办的多模态推理竞赛中,美团基础研发平台/计算和智能平台组建的ActiveAlphaAgent团队,斩获赛题1真实场景视觉定位(VG-RS)冠军,赛题2空间感知视觉问答(VQA-SA)季军和赛题3创意广告视频视觉推理(VR-Ads)季军。本文也分享了这三道赛题的解题思路,希望相关研究能给同学们带来一些帮助或启发。
2025-10-24 10:24:30
1488
转载 IROS 2025 | 美团机器人研究院学术年会,具身智能大咖观点交锋
在深圳市科技创新局的指导下,美团机器人研究院与清华大学深圳国际研究生院联合举办「2025年美团第三届低空经济智能飞行管理挑战赛」,本届大赛以视觉语言导航在空地协同中的应用探索为赛题,开设「性能赛」与「创意赛」两大赛道,面向全球高校开放,吸引384名学生报名,最终15支参赛队伍脱颖而出,并在今年首次举办了性能赛线下决赛。这一主题,针对第一性是什么、软硬件的关系与协同、具身数据的多样性与质量、未来机器人的核心特质等问题展开深度对话,为现场热情高涨的年轻学子带来诸多启发。《人工智能时代的机器人感知、规划和控制》
2025-10-24 10:24:30
473
原创 从0到1建设美团数据库容量评估系统
美团数据库团队推出了数据库容量评估系统,旨在解决数据库容量评估与变更风险防控等领域难题。本文介绍了系统架构和主要功能:系统使用线上流量在沙盒环境回放验证变更安全,结合倍速回放技术探测集群性能瓶颈,构建容量运营体系实现集群容量观测与治理闭环。系统具备数据操作安全、结果真实可靠、灵活高效赋能等特点,有效提升数据库稳定性与资源利用率。
2025-10-16 19:58:44
942
转载 可验证过程奖励在提升大模型推理效率中的探索与实践
美团业务研发搜推平台部算法团队创新提出可验证过程奖励机制(VSRM),针对大模型推理中的冗余回复与过度思考问题,精准奖励有效推理步骤,显著缩减输出长度并提升推理效率。VSRM通过步骤级正确率增益评估,有效抑制无效步骤,兼容主流强化学习算法,助力高效、可靠的复杂推理任务。
2025-10-09 19:58:39
414
转载 LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!
为了克服当前开源通用大型语言模型在形式化证明任务中的不足,我们针对形式化推理设计了一套全新的基于专家迭代框架的数据合成方法,该流程利用集成了 Lean4 服务器的专家迭代框架,生成经过严格验证的证明过程,从而系统性提升模型的形式化推理能力。LongCat-Flash-Thinking 在 MiniF2F-test 基准中的 pass@1 获得67.6的分数,大幅领先所有其他参与评估的模型,在 pass@8 和 pass@32 中同样保持了领先优势,凸显其在生成结构化证明和形式化数学推理方面的绝对优势。
2025-09-22 19:59:26
386
原创 开源 | InfiniteTalk:无限长虚拟人视频生成的新范式
目前,已在 GitHub 开源并获 1.6K Stars, Hugging Face 月下载量 64.8K,受到了很多好评,能够应用到电商直播、教育、影视等领域。
2025-09-22 19:59:26
2247
原创 LongCat-Flash:如何使用SGLang部署美团Agentic模型
SGLang 团队是业界专注于大模型推理系统优化的技术团队,提供并维护大模型推理的开源框架SGLang。近期,美团M17团队与SGLang团队一起合作,共同实现了LongCat-Flash模型在SGLang上的优化。欢迎大家体验。
2025-09-11 19:59:28
1015
原创 美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代
我们正式发布 LongCat-Flash-Chat,并同步开源。LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts, MoE)架构,总参数 560 B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。
2025-09-01 14:55:55
2022
原创 美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的 “听话”能力
针对大模型知识推理能力与指令遵循能力存在表现差异的现象,为推进指令遵循能力的系统化研究与精准评估,美团 M17 团队推出全新评测基准 Meeseeks,并在魔搭社区、GitHub、Huggingface等开源平台上线。
2025-08-28 19:59:07
1271
原创 可信实验白皮书系列08:开放式分析引擎 | 附PDF合集下载
本篇为《可信实验白皮书》系列的最后一篇内容,主要分享了AB实验分析方法库在美团的实践。同时,我们也为大家准备了一份该系列全集的PDF文档,希望能够帮助到更多从事AB实验工作的同学们。
2025-08-21 19:58:52
899
原创 美团智能头盔研发实践系列01:硬件设计篇
本文系《美团智能头盔研发实践》系列的第一篇文章,聚焦硬件设计维度。针对外卖骑手传统头盔佩戴体验不佳等痛点,从安全保障、体验优化、效率提升三大方向切入,详细解析安全防护、多传感器预警、通风减重、长效续航、音频降噪、工艺控制等关键技术,并提炼研发过程中行之有效的设计经验。
2025-08-14 19:58:46
1709
原创 美团智能头盔研发实践系列02:软件功能篇
本文系《美团智能头盔研发实践系列》的第二篇文章,围绕智能头盔如何通过主动安全和被动安全相结合的方式有效保护骑手,主要包括智能头盔骑行通话质量强化、智能语音助手、碰撞摔倒监控等三项软件能力。
2025-08-14 19:58:46
1413
原创 ACL 2025 | 美团技术团队论文精选
本文介绍了美团技术团队在国际顶会ACL 2025中发表的8篇论文,研究方向覆盖了生成式检索算法、多目标偏好对齐训练、富文本图像理解、搜索词推荐、跨语言迁移能力、多模态数学推理、第三人称任务等技术领域,希望相关研究能给同学们带来一些帮助或启发。
2025-07-31 19:58:46
1520
转载 NoCode 重磅升级!丝滑体验 +Database 开挂,速来解锁新玩法
不管是文件、图片,还是音频,都能直接上传到 NoCode 的 Database 里,还能灵活应用到自己的作品中。更便捷的是,执行完 SQL,前端代码还能自动修改,和后端存储逻辑自动适配!灵活性拉满,各种类型的文件资源都能轻松管理和调用,应用功能瞬间丰富起来!快来用 NoCode 创作属于你的作品并在 B 站投稿作品相关视频,在三大赛道中释放你的灵感创意,赢取活动专属纪念徽章和各种团团周边 🎁。Database 整体使用流程的升级是本次更新的一大亮点,新增自动执行 SQL、自动修改代码逻辑的功能,
2025-07-17 19:58:52
382
转载 美团开源OIBench与CoreCodeBench:揭示大模型编程能力的真实水平
Meituan-M17 团队联合上海交大等机构,分别推出了 OIBench(聚焦高区分度算法题评测)与 CoreCodeBench(聚焦多场景工程级代码基准)两大数据集,旨在揭示大模型编程能力真实水平,这两大数据集已分别在GitHub和Huggingface上进行开源。欢迎大家体验。
2025-07-17 19:58:52
514
转载 「NoCode·无界校园行」作品征集活动启动,首站清华,更多高校即将开启
活动深度融合 AI Coding 与 AI Agent 前沿技术,见证代码自动生成的神奇,提前掌握下一代开发者的核心技能。本活动限清华大学在校学生参与,主办方将对获奖者身份进行二次核验,对于不符合本活动要求的参与者将取消其获奖资格及参与资格。,评选出一、二、三等奖及优秀作品奖,颁发定制奖杯 + 奖金。平台,这是一款无需编程背景和经验,通过自然语言和对话形式,即可快速生成应用的平台。下方二维码加入创作者群,获取专业答疑,还有活动最新动态抢先知晓!清华赛区的作品征集活动,仅限清华在校学生参与,本硕博不限。
2025-07-03 19:59:12
353
原创 相约IROS 2025现场!美团第三届低空经济智能飞行管理挑战赛报名开始
美团第三届「低空经济智能飞行管理挑战赛」启动!本届挑战赛面向「国内外高校在校大学生」。大赛总奖金池40万元,最高单项奖10万元。
2025-07-01 15:14:15
841
原创 NoCode技巧分享:巧用提示词,做一个赛博朋克风的网站
场景1:想制作一个博客网站,但文章分类、评论互动、SEO 优化这些功能搅成一团,不知该怎么拆解实现?场景2:想实现一个赛博朋克风界面,可除了 「霓虹灯」「机械感」 又说不出具体细节?别让模糊需求卡住你的创意!试试提示词优化功能,或许能帮助你事半功倍!
2025-06-19 19:58:56
708
原创 JDK高版本特性总结与ZGC实践
美团信息安全技术团队核心服务升级JDK 17后,性能与稳定性大幅提升,机器成本降低了10%。高版本JDK与ZGC技术令人惊艳,且Java AI SDK最低支持JDK 17。本文总结了JDK 17的主要特性,然后重点分享了JDK 17+ZGC在安全领域的一些实践,希望能对大家有所帮助或启发。
2025-06-19 19:58:56
1323
原创 可信实验白皮书系列06:观察性研究
然而,常用的评估方法在处理这些局部全量策略效果时存在一定的局限性:首先,单重差分法假设功能或策略是唯一的影响因素,但现实中市场环境复杂,影响因素多样,使得这一假设难以成立。其次,倾向分匹配法(考虑到我们得到的因果效应可能并非完全由干预引起,可能存在一些随机因素,我们需要通过稳健性检验来排除随机因素的影响,此时可以考虑改变干预时间节点进行稳健性检验:即通过提前或延后干预时间,创造一个虚拟干预时间节点,观察在这种情况下得到的平均因果效应,与真实干预时间点的平均因果效应是否存在显著差异。
2025-06-19 19:58:56
1357
原创 无需代码!美团 NoCode 像聊天一样轻松搭建你的专属网站
特别推荐一款由美团技术团队打造的 AI 编程类产品——NoCode,可以像聊天一样轻松搭建你的专属网站、游戏、各种小工具等等,当然还有更多的隐藏功能等你发现,文末我们还准备了互动奖励,期待跟大家一起,开启全新的 AI 编程之旅。
2025-06-12 19:59:02
862
原创 MTGR:美团外卖生成式推荐Scaling Law落地实践
美团外卖推荐算法团队基于HSTU提出了MTGR框架以探索推荐系统中Scaling Law。MTGR对齐传统模型特征体系,并对多条序列利用Transformer架构进行统一建模。通过极致的性能优化,样本前向推理FLOPs提升65倍,推理成本降低12%,训练成本持平。
2025-05-15 19:58:50
3118
原创 招聘 | 美团 AI 搜索:致力用 AI 技术创造极致的搜索和交互体验
我们正在寻找「AI 狂热分子」——能让搜索结果秒懂用户灵魂需求的算法魔法师、精准雕琢搜索体验的算法工程技术革新者敢用大模型重构搜索逻辑的技术造浪者、深耕算法工程实践的大模型架构驾驭者愿用数据和代码解锁智能边界的未来架构师、用工程代码与数据打破技术边界的技术领航人
2025-05-08 19:59:19
1044
原创 OR算法+ML模型混合推理框架架构演进
本文介绍了OR算法+ML模型混合推理能力建设思路及业务背景,此场景相比常规模型推理更具特殊性和复杂性,在工程实现上面临多维挑战,因此本文分别从性能、稳定性和扩展性三个维度分析问题和解法。
2025-05-08 19:59:19
1071
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅