- 博客(878)
- 收藏
- 关注
原创 LongCat-Flash-Prover:AI 攻克数学定理证明,不仅要“算得对”,更要“证得严”
如何让 AI 从“猜答案”走向“严谨证明”,成为复杂推理具有挑战的课题。我们开源了专门用于数学形式化与定理证明的模型 —— LongCat-Flash-Prover。
2026-04-08 09:28:02
503
原创 美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语
LongCat-Next 是我们在通往物理世界 AI 道路上的一次探索。我们把研究思路的核心——LongCat-Next 模型和它的离散分词器全部开源,希望更多开发者能基于它,构建真正能感知、理解并作用于真实世界的AI。
2026-04-03 15:03:10
571
原创 美团 BI 在指标平台和分析引擎上的探索和实践
美团数据平台构建了以指标平台为核心的新一代 BI 架构,通过自动语义和增强计算两种核心能力的建设,部分解决了传统 BI 平台在个性化数据集驱动下产生的数据口径混乱、查询性能差等问题。
2026-03-20 14:06:33
813
原创 重塑站外体验:大众点评 M 站基于 Qwik.js 的重构实践
为突破传统 Web 框架的性能瓶颈,大众点评增长团队引入 Qwik.js 重构 M 站核心页面架构,解决了重构前页面加载慢、维护成本高的难题。
2026-03-16 09:43:06
939
原创 LongCat 为 OpenClaw 装上效率引擎:你的自动化任务还能再快 30%
ongCat 团队提供稳定合规的官方免费 API,开发者可通过官方渠道直接接入,在确保账号安全的前提下构建自动化工作流,自动化任务还能再快 30%。LongCat API 开放平台:https://longcat.chat/platform/usage,欢迎大家体验~~
2026-03-06 16:02:34
1141
原创 美团发布基于 N-gram 全新模型:嵌入扩展新范式,实现轻量化 MoE 高效进化
LongCat-Flash-Lite 的实践,为大模型的高效扩展提供了一种新的可能性:通过 N-gram 嵌入 与 系统级优化 的协同设计,我们得以用29亿~45亿的动态激活参数,在智能体与编码等关键任务上,实现与更大模型比肩的竞争力。
2026-02-10 15:04:28
5250
3
原创 多维创新打造强泛化智能体模型,LongCat-Flash-Thinking-2601技术报告发布
该模型创新性地打造了 “重思考模式” ,通过并行推理与深度总结,实现推理宽度与深度的协同扩展,显著提升复杂交互与多步规划任务中的表现。
2026-02-02 14:09:30
2148
原创 美团EvoCUA刷新开源SOTA,会用电脑还会持续进化的智能体!
EvoCUA,一个基于经验进化范式的原生 Computer Use Agent。通过可验证的合成引擎、可扩展的交互基建和可进化的经验学习算法,我们探索出一条提升Computer Use能力的通用方法。在 OSWorld 基准测试中,EvoCUA 以56.7%的成功率刷新了开源模型的 SOTA,证明了这条路径的有效性。高信噪比数据是关键: 成功轨迹是低噪声但低信息量的,失败轨迹是高噪声但高信息量的。如何处理好数据,保证较高的信噪比是模型能力持续提升的关键。先验 Pattern 重于数据量。
2026-01-26 10:29:18
5039
4
原创 美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
近日,美团 LongCat 团队正式对外发布并开源 LongCat-Flash-Thinking-2601。作为已发布的 LongCat-Flash-Thinking 模型的升级版,LongCat-Flash-Thinking-2601 在 Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型 SOTA 水平。
2026-01-20 09:37:28
3540
2
原创 AAAI 2026 | 美团技术团队学术论文精选
AAAI 是人工智能领域顶级的国际学术会议,本文精选了【美团技术团队】被收录的8篇学术论文(附下载链接),覆盖大模型推理、 退火策略、过程奖励模型、强化学习、视觉文本渲染等多个技术领域,欢迎一起交流学习~
2026-01-13 15:10:02
2182
原创 KuiTest:基于大模型通识的UI交互遍历测试
美团质效技术部联合复旦大学周扬帆教授团队推出KuiTest——零规则UI功能性异常测试工具。KuiTest通过将“人类预期”直接用作Test Oracle,解决了长期以来UI测试Oracle泛化性差的自动化痛点。实验表明,KuiTest异常召回率达86%,误报率仅1.2%,已在执行21万+测试用例,发现百余例有效缺陷,大幅降低人工成本并提升测试覆盖率。
2026-01-13 13:41:18
2340
原创 2025 美团技术团队热门技术文章汇总
提前祝大家新年快乐,感谢这一路上,每一位伙伴的并肩前行与坚定支持。今年,我们精选了18篇具有代表性的技术文章,内容涵盖大模型开源、研发技能、产品服务三大方向。愿大家在新年里,奔赴更高、更远的山海~
2025-12-29 10:59:02
6355
1
原创 美团 LongCat-Video-Avatar 正式发布,实现开源SOTA级拟真表现
LongCat 团队针对实际场景中的核心痛点持续优化,正式发布并开源 SOTA 级虚拟人视频生成模型 ——LongCat-Video-Avatar。该模型基于 LongCat-Video 基座打造,延续 “一个模型支持多任务” 的核心设计,原生支持 Audio-Text-to-Video(AT2V)、Audio-Text-Image-to-Video(ATI2V)及视频续写等核心功能,同时在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的显著突破,为开发者提供更稳定、高效、实用的创作解
2025-12-23 14:32:08
3017
原创 大模型剪枝新范式:先浓缩,再剪枝——DenoiseRotator技术解读
美团智能交互团队联合上海交通大学听觉认知与计算声学实验室,以及香港科技大学的研究者,共同完成了大模型剪枝方法的创新研究,提出了名为DenoiseRotator的新技术。通过首先对参数矩阵进行变换,“将知识和推理能力浓缩到由少量参数组成的子网络内”,“再裁剪掉子网络外的参数”,实现了大模型剪枝的新范式。
2025-12-19 15:01:03
2406
原创 美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源SOTA
美团 LongCat 团队正式发布并开源 LongCat-Image 模型,通过高性能模型架构设计、系统性的训练策略和数据工程,以6B参数规模,成功在文生图和图像编辑的核心能力维度上逼近更大尺寸模型效果,为开发者社区与产业界提供了 “高性能、低门槛、全开放” 的全新选择。
2025-12-09 15:05:50
2221
原创 AI Coding与单元测试的协同进化:从验证到驱动
AI生成代码质量难以把控!本文分享来自美团的技术实践,三大策略破解AI编程痛点。单测快速验证逻辑正确性,安全网保护存量代码演进,TDD模式精准传递需求。告别「看起来没问题」的错觉,构建AI时代的代码质量保障体系。
2025-12-05 13:52:51
2400
转载 复旦 NLP&美团 LongCat 联合提出长程推理能力评测与增强新框架
基于此方法,我们构建了R-HORIZON Benchmark用于系统性评估 LRMs 的多步推理能力,同时生成了长链推理训练数据,通过强化学习(RLVR)提升模型性能。所有模型随问题数量增加均出现明显性能下降。这些真实场景要求模型具备跨任务的长链推理能力——不仅要解决单个子问题,更要在多个关联任务间保持推理—致性、合理分配计算资源、实现跨步骤的反思与纠错。R-HORIZON 提出了问题组合(Query Composition)方法,通过构建问题间的依赖关系,将孤立任务转化为复杂的多步骤推理链。
2025-11-27 19:59:08
1728
转载 LongCat 发布 AMO-Bench:重新定义 LLM 数学上限
参照国际数学竞赛官方竞赛大纲,题目被划分为五大类:代数方程与不等式(11 题,占比 22%)、函数与数列(13 题,占比 26%)、几何(5 题,占比 10%)、数论(9 题,占比 18%)、组合数学(12 题,占比 24%),覆盖数学奥赛核心知识点,考察模型在不同领域是否存在能力短板。表现最优的 GPT-5-Thinking(High)正确率仅 52.4%,且大部分模型表现低于 40%,即便头部闭源模型,也未突破 “及格线”,凸显 IMO 级难度的原创题对当前 AI 的挑战性;
2025-11-27 19:59:08
1698
转载 美团 LongCat Interaction 团队发布大模型交互系统技术报告 WOWService
LongCat团队正式发布——「WOWService 大模型交互系统技术报告」,深度拆解了 「数据与知识双驱动」「自我优化训练」「四阶段训练流水线」「多 Agent 协同」 四大核心技术框架,希望对行业发展提供参考与启发。
2025-11-20 19:59:21
1680
原创 美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地
针对 Speech LLM 落地中的音频处理难题,美团 LongCat 团队正式开源专用语音编解码方案 LongCat-Audio-Codec。真正让语音大模型既 “听懂” 语义,又能够“说清” 。
2025-11-14 10:28:08
2515
转载 美团 LongCat 团队发布全模态一站式评测基准UNO-Bench:揭示单模态与全模态能力的组合规律
该基准通过科学的评测框架,首次揭示了多模态智能并非简单的线性叠加,而是遵循着一种乘积规律,这一规律在能力较弱的模型上体现为瓶颈限制,而在顶尖模型上则表现为协同增益的特性,这个全模态大模型的“组合定律”为行业提供了一种全新的、跨越模型规模的分析范式。为实现自动化评估,LongCat团队还提出了一个通用评分模型,通过对问题类型进行细分(如图7所示),并结合人工和自动标注多轮质量迭代的数据集(如图6所示),使其能够支持6种通用问题类型的自动评分,在分布外的模型和基准测试中达到了95%的准确率。
2025-11-13 19:59:29
1581
原创 LongCat-Flash-Omni正式发布并开源:开启全模态实时交互时代
LongCat-Flash系列再升级,美团正式发布全新家族成员——LongCat-Flash-Omni,在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni 是业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 于一体的开源大语言模型。
2025-11-03 15:15:53
2158
转载 VitaBench:基于复杂生活场景的交互式 Agent 评测基准
美团 LongCat 团队正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含 66 个工具的交互式评测环境,并进行了跨场景的综合任务设计。
2025-11-03 10:24:59
1455
转载 LongCat-Video 视频生成模型正式发布,探索世界模型的第一步
作为基于 Diffusion Transformer(DiT)架构的多功能统一视频生成基座,LongCat-Video 创新通过 “条件帧数量” 实现任务区分 —— 文生视频无需条件帧、图生视频输入 1 帧参考图、视频续写依托多帧前序内容,原生支持三大核心任务且无需额外模型适配,形成 “文生 / 图生 / 视频续写” 完整任务闭环。同时,从根源规避色彩漂移、画质降解、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性,完美适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。
2025-10-27 10:25:15
1252
原创 ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享
本文介绍了美团技术团队在国际顶会ICCV 2025中发表的5篇论文。同时,在ICCV 2025 举办的多模态推理竞赛中,美团基础研发平台/计算和智能平台组建的ActiveAlphaAgent团队,斩获赛题1真实场景视觉定位(VG-RS)冠军,赛题2空间感知视觉问答(VQA-SA)季军和赛题3创意广告视频视觉推理(VR-Ads)季军。本文也分享了这三道赛题的解题思路,希望相关研究能给同学们带来一些帮助或启发。
2025-10-24 10:24:30
1977
转载 IROS 2025 | 美团机器人研究院学术年会,具身智能大咖观点交锋
在深圳市科技创新局的指导下,美团机器人研究院与清华大学深圳国际研究生院联合举办「2025年美团第三届低空经济智能飞行管理挑战赛」,本届大赛以视觉语言导航在空地协同中的应用探索为赛题,开设「性能赛」与「创意赛」两大赛道,面向全球高校开放,吸引384名学生报名,最终15支参赛队伍脱颖而出,并在今年首次举办了性能赛线下决赛。这一主题,针对第一性是什么、软硬件的关系与协同、具身数据的多样性与质量、未来机器人的核心特质等问题展开深度对话,为现场热情高涨的年轻学子带来诸多启发。《人工智能时代的机器人感知、规划和控制》
2025-10-24 10:24:30
1212
原创 从0到1建设美团数据库容量评估系统
美团数据库团队推出了数据库容量评估系统,旨在解决数据库容量评估与变更风险防控等领域难题。本文介绍了系统架构和主要功能:系统使用线上流量在沙盒环境回放验证变更安全,结合倍速回放技术探测集群性能瓶颈,构建容量运营体系实现集群容量观测与治理闭环。系统具备数据操作安全、结果真实可靠、灵活高效赋能等特点,有效提升数据库稳定性与资源利用率。
2025-10-16 19:58:44
1201
转载 可验证过程奖励在提升大模型推理效率中的探索与实践
美团业务研发搜推平台部算法团队创新提出可验证过程奖励机制(VSRM),针对大模型推理中的冗余回复与过度思考问题,精准奖励有效推理步骤,显著缩减输出长度并提升推理效率。VSRM通过步骤级正确率增益评估,有效抑制无效步骤,兼容主流强化学习算法,助力高效、可靠的复杂推理任务。
2025-10-09 19:58:39
543
转载 LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!
为了克服当前开源通用大型语言模型在形式化证明任务中的不足,我们针对形式化推理设计了一套全新的基于专家迭代框架的数据合成方法,该流程利用集成了 Lean4 服务器的专家迭代框架,生成经过严格验证的证明过程,从而系统性提升模型的形式化推理能力。LongCat-Flash-Thinking 在 MiniF2F-test 基准中的 pass@1 获得67.6的分数,大幅领先所有其他参与评估的模型,在 pass@8 和 pass@32 中同样保持了领先优势,凸显其在生成结构化证明和形式化数学推理方面的绝对优势。
2025-09-22 19:59:26
524
原创 开源 | InfiniteTalk:无限长虚拟人视频生成的新范式
目前,已在 GitHub 开源并获 1.6K Stars, Hugging Face 月下载量 64.8K,受到了很多好评,能够应用到电商直播、教育、影视等领域。
2025-09-22 19:59:26
2382
原创 美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代
我们正式发布 LongCat-Flash-Chat,并同步开源。LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts, MoE)架构,总参数 560 B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。
2025-09-01 14:55:55
2148
原创 美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的 “听话”能力
针对大模型知识推理能力与指令遵循能力存在表现差异的现象,为推进指令遵循能力的系统化研究与精准评估,美团 M17 团队推出全新评测基准 Meeseeks,并在魔搭社区、GitHub、Huggingface等开源平台上线。
2025-08-28 19:59:07
1375
原创 可信实验白皮书系列08:开放式分析引擎 | 附PDF合集下载
本篇为《可信实验白皮书》系列的最后一篇内容,主要分享了AB实验分析方法库在美团的实践。同时,我们也为大家准备了一份该系列全集的PDF文档,希望能够帮助到更多从事AB实验工作的同学们。
2025-08-21 19:58:52
932
原创 美团智能头盔研发实践系列01:硬件设计篇
本文系《美团智能头盔研发实践》系列的第一篇文章,聚焦硬件设计维度。针对外卖骑手传统头盔佩戴体验不佳等痛点,从安全保障、体验优化、效率提升三大方向切入,详细解析安全防护、多传感器预警、通风减重、长效续航、音频降噪、工艺控制等关键技术,并提炼研发过程中行之有效的设计经验。
2025-08-14 19:58:46
2034
原创 美团智能头盔研发实践系列02:软件功能篇
本文系《美团智能头盔研发实践系列》的第二篇文章,围绕智能头盔如何通过主动安全和被动安全相结合的方式有效保护骑手,主要包括智能头盔骑行通话质量强化、智能语音助手、碰撞摔倒监控等三项软件能力。
2025-08-14 19:58:46
1503
原创 ACL 2025 | 美团技术团队论文精选
本文介绍了美团技术团队在国际顶会ACL 2025中发表的8篇论文,研究方向覆盖了生成式检索算法、多目标偏好对齐训练、富文本图像理解、搜索词推荐、跨语言迁移能力、多模态数学推理、第三人称任务等技术领域,希望相关研究能给同学们带来一些帮助或启发。
2025-07-31 19:58:46
1616
转载 NoCode 重磅升级!丝滑体验 +Database 开挂,速来解锁新玩法
不管是文件、图片,还是音频,都能直接上传到 NoCode 的 Database 里,还能灵活应用到自己的作品中。更便捷的是,执行完 SQL,前端代码还能自动修改,和后端存储逻辑自动适配!灵活性拉满,各种类型的文件资源都能轻松管理和调用,应用功能瞬间丰富起来!快来用 NoCode 创作属于你的作品并在 B 站投稿作品相关视频,在三大赛道中释放你的灵感创意,赢取活动专属纪念徽章和各种团团周边 🎁。Database 整体使用流程的升级是本次更新的一大亮点,新增自动执行 SQL、自动修改代码逻辑的功能,
2025-07-17 19:58:52
431
转载 美团开源OIBench与CoreCodeBench:揭示大模型编程能力的真实水平
Meituan-M17 团队联合上海交大等机构,分别推出了 OIBench(聚焦高区分度算法题评测)与 CoreCodeBench(聚焦多场景工程级代码基准)两大数据集,旨在揭示大模型编程能力真实水平,这两大数据集已分别在GitHub和Huggingface上进行开源。欢迎大家体验。
2025-07-17 19:58:52
662
转载 「NoCode·无界校园行」作品征集活动启动,首站清华,更多高校即将开启
活动深度融合 AI Coding 与 AI Agent 前沿技术,见证代码自动生成的神奇,提前掌握下一代开发者的核心技能。本活动限清华大学在校学生参与,主办方将对获奖者身份进行二次核验,对于不符合本活动要求的参与者将取消其获奖资格及参与资格。,评选出一、二、三等奖及优秀作品奖,颁发定制奖杯 + 奖金。平台,这是一款无需编程背景和经验,通过自然语言和对话形式,即可快速生成应用的平台。下方二维码加入创作者群,获取专业答疑,还有活动最新动态抢先知晓!清华赛区的作品征集活动,仅限清华在校学生参与,本硕博不限。
2025-07-03 19:59:12
425
原创 相约IROS 2025现场!美团第三届低空经济智能飞行管理挑战赛报名开始
美团第三届「低空经济智能飞行管理挑战赛」启动!本届挑战赛面向「国内外高校在校大学生」。大赛总奖金池40万元,最高单项奖10万元。
2025-07-01 15:14:15
878
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅