实时视频换脸、8 万家 AI 公司消失、论文天价售卖、新的 scaling law、爆火毒舌 AI

本文链接：https://blog.csdn.net/qq_32036091/article/details/141307214

AI 视界周刊由战场小包维护，每周一更新，包含热点聚焦、应用破局、学术前沿、社区热议、智见交锋、跨界 AI、企业动态和争议 AI 八大板块，后续板块划分和内容撰写在周刊迭代过程中持续优化，欢迎大家提出建议。

欢迎大家来到《AI 视界周刊第 5 期》(08/12~08/18)。

✨ 热点聚焦

直播版 Deepfake 太恐怖！单张照片实时视频换脸，5 分钟安装不挑硬件

Deep-Live-Cam 项目通过 AI 技术实现单张照片实时换脸，无需专用硬件支持，安装简便，效果逼真。该技术在 GitHub 上迅速走红，引发网友热议。虽然为人工智能 media 行业带来便利，但也存在被滥用的风险。项目开发者提醒用户注意道德使用，并建议在使用真人面孔时征得同意。同时，AI 换脸技术的应用也引起了社会对真假难辨的担忧，呼吁开发深度伪造检测工具以应对潜在风险。

Nature 曝惊人内幕：论文被天价卖出喂 AI！出版商狂赚上亿，作者 0 收入

Nature 杂志披露，学术出版商如 Taylor & Francis 和 Wiley 通过向科技公司出售论文数据赚取巨额利润，而论文作者却未获任何回报。学术论文成为训练 AI 模型的宝贵数据源，但版权争议和作者权益问题随之浮现。尽管存在技术手段尝试识别论文是否被用于 AI 训练，但证明难度极高。同时，多模态数据集的构建，如利用 arXiv 论文中的图文，为 AI 模型提供了新的训练资源，提升了模型在特定领域的能力。

ChatGPT 狂飙 600 多天后，中国有近 8 万家 AI 公司消失

自 ChatGPT 发布以来，中国 AI 领域经历了企业数量的激增，但随之而来的是大量企业的注销或吊销。据统计，近 8 万家 AI 公司已消失，占新注册企业总量的 8.9%。这一现象背后是算力成本高、研发投入大、盈利能力不足等挑战。同时，市场融资遇冷，中美大模型技术差距及应用优化问题也成为行业关注的焦点。

Llama 8B 通过搜索提升性能，超越 GPT-4o！新「Scaling Law」诞生？

最新研究表明，通过搜索技术，参数量仅 8B 的 Llama 3.1 模型在 Python 代码生成任务上实现了对 GPT-4o 性能的追赶甚至超越。这项发现基于强化学习先驱 Rich Sutton 的 Scaling Law 理念，强调了学习和搜索在 AI 发展中的重要性。实验通过 100 次搜索，Llama 3.1 在 HumanEval 基准测试中的 pass@k 分数显著提升，特别是在 k 为 1000 时，性能优于 GPT-4o。这表明，在推理阶段通过搜索方法增强，即使是较小的模型也能以可预测的方式胜过大型模型。搜索方法的强大之处在于其可随着计算量的增加进行透明扩展，有助于实现资源的进一步平衡。

世界最强智能体 Agent Q 发布：较 LLama 3 性能提升了 340%

MultiOn AI 公司推出 Agent Q，一款性能超越 LLama 3 的下一代 AI 代理。Agent Q 具备自我监督和自我修复能力，通过自我对弈和互联网强化学习实现自我提升。它利用树搜索和评价模型优化行动策略，使用零样本视觉语言模型进行结果验证。Agent Q 在模拟和现实应用中表现出色，尤其在在线预订任务中，零样本性能显著提升，显示出其在复杂环境中的卓越能力。研究还探讨了模型微调和搜索方法的改进，以及安全性和用户参与的重要性。

爆火毒舌 AI 每小时赚 2.8 万！每分钟 36 个新用户，火遍全球只因改了一句提示词

一款名为“毒舌 AI”的 Twitter 应用通过犀利点评用户历史发言迅速走红，实现每小时 2.8 万元的收入。该应用基于 Wordware 低代码平台构建，无需高深技术即可创建复杂 AI 应用。开发者 Kyzo 开源了所有代码和提示词，鼓励二次开发。用户增长导致成本压力，团队不得不开启付费墙并动态调整价格策略。Wordware 平台的易用性和灵活性，加上 AI 的强大功能，使得这款应用在短时间内吸引了全球用户的关注，并在日本市场尤为成功。

OpenAI 首席战略官 Jason Kwon：不会一夜之间突然发布一个“包罗万象”的 AI

OpenAI 首席战略官 Jason Kwon 在接受采访时表示，通用人工智能（AGI）可能在几年内实现，但不会突然全面推出以避免社会冲击。他强调，尽管技术进步迅速，但需要谨慎管理以防止负面后果。Kwon 认为企业应准备应对 AGI 的潜在威胁，并主张 AI 应受到监管。

📲 应用破局

业界首个、开箱即用，华为 AI 训推全流程工具链 ModelEngine 亮相

华为在 2024 全球开源技术峰会上展示了 ModelEngine，这是业界首个开箱即用的 AI 训推全流程工具链。ModelEngine 集成了 AI 流式编程框架，为数据处理工程师、模型工程师和应用开发者提供一站式 AI 开发体验。它支持开放的数据处理算子、主流模型和应用算子，大幅缩短了语料生成时间，帮助开发者快速构建 AI 应用，并支持 LangChain、LlamaIndex 等插件，保护现有 AI 资产。

成本降低 90%！Claude 上新 Gemini 同款提示词缓存，一次性记住整个代码库

Claude 新功能允许 API 一次性记忆整本书或代码库，显著降低处理长文本的延时和成本。该技术通过提示词缓存，减少重复输入，提高效率。谷歌 Gemini 和国内 Kimi、DeepSeek 团队已先行采用。缓存有效期限五分钟，但可重置。应用场景包括对话、代码助理、文档处理等，成本节约高达 90%。定价策略中，写入和读取价格独立，随缓存使用次数增加，成本优势更明显。此更新对开发者是重大利好，预示着大模型厂商可能的新标配。

没有等来 OpenAI 开源 GPT-4o，等来了开源版 VITA

腾讯优图实验室等机构研究者推出首个开源多模态大语言模型 VITA，能处理视频、图像、文本和音频。基于 Mixtral 8×7B，扩展汉语词汇量并进行双语微调，通过多任务学习赋予视觉和音频能力。VITA 在多语言、视觉和音频理解上表现卓越，提升了自然多模态人机交互体验，采用复式部署，实现环境输入跟踪和用户查询响应，为开源社区在多模态理解和交互领域提供重要贡献。

马斯克突发新版大模型，牺牲特斯拉资源叫板 OpenAI，Grok-2 一手实测来了

Elon Musk 的 xAI 公司推出了 Grok-2 大模型，其测试版 Grok-2 mini 已在 𝕏 平台上线。Grok-2 在多个领域表现出色，尤其在视觉数学推理方面达到 SOTA 水平。该模型能访问实时数据，进行新闻总结和趣味吐槽，还能接入 AI 生图模型 Flux.1。尽管 Grok-2 性能显著，马斯克从特斯拉转移资源至 xAI 引发股东不满，目前相关案件正在审理中。

开源 AI 视频工具，你只需要当导演，HuggingFace 工程师打造

Clapper 是一款由 HuggingFace 工程师 Julian Bilcke 开发的开源 AI 视频编辑工具，旨在简化视频制作流程。用户无需视频编辑或 AI 工程技能，通过调整角色、场景等高级概念，利用 AI Agent 迭代故事。内置大模型如 GPT-4o 和 Claude 3.5，实现从文本到视频的自动转换。Clapper 提供了导演模式，允许用户通过命令控制 AI 制作电影。尽管功能强大，但视频效果仍有改进空间，如动作不自然和配乐质量。Clapper 在 GitHub 上获得 1100+ Star，为传统视频编辑软件提供了 AI 集成的新思路。

快手推出“飞船”App：基于“快意”AI 模型，主打虚拟陪伴

快手最新发布了基于自研"快意"AI 模型的"飞船"App，主打个性化虚拟陪伴。用户可以与 AI 助手进行自然语言对话，解答疑问，获取娱乐和创作灵感。App 支持创建和定制专属 AI 角色，提供内容创作辅助和高度定制化功能，同时具备语音交互能力，旨在提升用户的生活质量和工作效率。

情侣合照逼真到恐怖，竟被代码识出破绽？沃顿教授预言 AI 18 个月封神！

AI 生图工具 Flux 以其逼真的图像生成能力迅速走红，引发全网关注。该工具能够生成几乎无法辨认真伪的情侣合照，展示了 AI 在图像、视频和声音合成方面的巨大进步。开源模型的可玩性为二创、广告、教学等领域提供了新的可能性。沃顿商学院的 AI 教授预言，AI 将在 18 个月内完成重大进化，届时实时生成的 AI 朋友或治疗师将成为现实。同时，技术的发展也带来了对真伪辨识的挑战，前谷歌搜索创始人之一提出了通过提高图像饱和度来识别 AI 生成图像的方法。

VideoDoodles：手绘涂鸦动画与视频无缝融合的 AI 神器

Adobe 与大学合作开发的 AI 工具 VideoDoodles，允许用户在视频中轻松添加手绘动画并实现无缝融合。该工具通过预处理视频、平面画布绘制、跟踪算法和 3D 位置跟踪，简化了动画制作过程。用户只需在关键帧上绘制，系统便自动生成动画，解决了透视和遮挡问题。实验显示，VideoDoodles 在跟踪准确性和用户满意度上优于现有方法，同时提供了易于使用的界面和高效的创作流程，适用于多种视频创作场景。尽管存在平面画布限制和方向跟踪改进空间，VideoDoodles 展现了强大的创作潜力和用户友好性。

OpenAI「草莓」提前曝光？ChatGPT 版搜索引擎惊现神秘模型

OpenAI 的「草莓」项目备受关注，尽管具体细节尚未公开，但其竞争对手 Perplexity AI 已展示具备类似「草莓」能力的新模型。Perplexity AI 的 CEO Aravind Srinivas 通过在线演示展示了其 AI 的逐步思考能力，如成功解答「草莓覆盖火星」的问题。Perplexity AI 的月度收入和使用量自年初以来增长了 7 倍，目前已完成 2.5 亿美元的新一轮融资，其商业模式正从订阅转向广告，与谷歌等展开竞争。尽管 AI 生成错误信息的风险存在，但 Perplexity AI 正努力提高 AI 的可靠性，以适应主流使用。

⏳ 社区热议

笑死！马斯克成 Grok2 最大受害者，恶搞图满天飞

Grok 2.0 AI 模型上线引发网络恶搞热潮，马斯克成为焦点。用户通过模型生成了各种荒诞不经的马斯克形象，包括与名人互动的虚构场景。Grok 2.0 的逼真 AI 生图功能由 Flux.1 提供支持，与 Stable Diffusion 同源。模型虽设安全限制，但版权和敏感内容问题仍存。科技媒体和网友对 Grok 未来表示担忧，同时对其性价比和会员功能表示认可。

国产版毒舌 AI 上线！雷军意外躺枪，体验后我破防了

一款国产毒舌 AI 上线，以其犀利的言辞在微博引发广泛关注。AI 不仅对微博大 V 进行疯狂 diss，连雷军也意外成为其调侃对象。该 AI 能够全面分析人的优点和缺点，甚至涉及情感和事业，其幽默且尖锐的评论让人破防。体验地址已提供，用户可亲自感受这款 AI 的独特魅力。

🎏 智见交锋

联想杨元庆：AI 绝不是泡沫，不要千军万马走一个独木桥

联想集团董事长杨元庆坚信 AI 技术非泡沫，看好其在各行业的应用前景。联想通过发展混合智能，结合公共与私有 AI，实现业务增长。2024/25 财年首季营收和净利润均大幅增长，AI PC 市场潜力巨大，智能手机业务在亚太、欧洲-中东-非洲地区增长强劲。联想在云基础设施领域也取得显著进展，积极推动 AI 在企业级应用中的落地。尽管面临研发和库存挑战，联想保持技术领先，杨元庆对 AI 未来充满期待，预言个人用户将拥有"AI 代理"或"AI 双胞胎"。

硅谷知名投资人 Elad Gil 最新洞察：开源若追上闭源，将显著改变 AI 寡头垄断格局

硅谷知名科技投资人 Elad Gil 预测，未来几年 AI 领域将形成由几家巨头公司主导的寡头垄断局面。然而，开源模型如 Meta 的 LlaMA 若能迎头赶上，可能会引发行业变革，经济价值将由闭源提供商转移至云服务商。Gil 认为，随着大型语言模型的迭代，AI 能力将大幅提升，为医疗、教育等领域带来新的市场机会。同时，他探讨了社会进步、创新加速以及 AI 对人类社会的深远影响。

大模型开闭源之争，争的是什么？

中美 AI 产业围绕大模型开源与闭源的争论激烈。开源模型以社区贡献促进技术迭代，而闭源模型则以商业化和性能优势为卖点。企业如百度、OpenAI 倾向于闭源以快速商业化，而阿里云、Meta 选择开源以扩大市场。开源与闭源各有市场定位，长期共存。开源模型虽免费但需自行调整，闭源模型提供成熟服务但需付费。性能是成本的决定因素，闭源模型长期看可能更具成本效益。企业客户更关注效果、性能、价格和安全，而非单一的开源或闭源属性。未来市场将见证开源与闭源模型的持续竞争与共存。

扎克伯格最新创业分享：下一代大公司将建立在开源 AI 基础上

扎克伯格在 SPC 黑客松活动中预言，下一代大公司将基于开源 AI 建立。他强调了 AR 眼镜和 VR 头盔作为未来计算平台的重要性，并预计这些设备将在 10 至 15 年内普及。在创业方面，他分享了如何应对情绪起伏和团队早期文化建设的重要性。扎克伯格还提到，Meta 的顶级产品经理都是通过转岗成长起来的，反映了公司文化和个人关系的深远影响。此外，他个人通过参与 MMA 和冲浪等运动来管理压力，强调了运动与工作之间的平衡。

比尔盖茨：AI 行业倍数并没有像互联网泡沫时期夸张，而且所展现的增长是真实的

比尔·盖茨在访谈中强调 AI 行业增长的真实性，与互联网泡沫时期不同，AI 技术在能源转型和气候解决方案中扮演关键角色。他认为 AI 对电力需求的增加远低于其他行业，且可通过提高效率减少能源消耗。盖茨指出，尽管全球在实现净零排放目标上有所滞后，但对逆转气候变化的前景保持乐观，认为技术创新和政策支持是关键。他还提到，尽管碳捕获技术重要，但成本需降至每吨 100 美元以下才具竞争力。盖茨对气候技术投资表示乐观，认为资本和市场对绿色技术的需求日益增长。

🎯 争议 AI

警惕！AI 生成的假马斯克成网络诈骗新宠

随着 AI 技术发展，深度伪造技术被用于网络诈骗，尤其是伪造埃隆·马斯克的视频，误导投资者造成重大损失。82 岁退休老人史蒂夫·比彻姆因观看伪造视频损失 69 万美元。社交媒体成为传播重灾区，监管难度加大。用户需提高警惕，核实信息真实性，避免成为诈骗目标。平台加强监管，用户提高自我保护意识，共同抵御诈骗威胁。

Apple Intelligence 存重大安全缺陷，几行代码即可攻破！Karpathy 发文提醒

Apple Intelligence 在 Beta 测试中被发现存在重大安全缺陷，开发人员 Evan Zhou 通过提示注入攻击成功操纵了 AI 系统，绕过了预期指令。这种攻击方式可导致数据泄露、生成恶意内容。技术安全专家 Bruce Schneier 指出，问题源于数据和控制路径未分离。Andrej Karpathy 也指出了类似 SQL 注入的漏洞，建议通过编程显式添加特殊 token 以增强安全性。

集体诉讼已受理：艺术家指控 Stability AI、Midjourney 等公司侵犯版权

美国地方法院已批准多名艺术家对 Stability AI、Midjourney 等 AI 公司的集体诉讼继续进行，原告指控这些公司非法使用他们的版权作品来训练 AI。法官威廉·奥里克批准了对 Stability AI 的诱导性版权侵权索赔，同时受理了对 DeviantArt 和 Runway AI 的版权索赔，以及对 Midjourney 的版权和商标侵权索赔。不过，法官驳回了关于 AI 生成器违反《数字千年版权法》和 DeviantArt 违反服务条款的指控。涉及 4700 名艺术家的 Midjourney 案件中，原告认为公司存在误导内容，未经同意使用其作品。

加州要亲手扼杀 AI 创新？硅谷吵翻了天

加利福尼亚州议会提出的《前沿人工智能模型安全可靠创新法》（SB 1047）在硅谷引发激烈讨论。泰斗级专家如杰弗里·辛顿和约书亚·本吉奥支持监管以避免 AI 风险，而李飞飞和吴恩达等学者则担心过度监管会扼杀创新。法案要求 AI 公司进行安全测试并实施措施以降低风险，但遭到硅谷 AI 公司和创投行业的反对，担忧法案会导致公司搬迁，损害加州经济。尽管存在争议，法案在加州立法通过的可能性增大。

微软 Copilot AI 被指控可被黑客操纵，轻松窃取企业机密

微软的 Copilot AI，一款以深度学习技术辅助企业分析决策的工具，近期被曝光存在设计缺陷，可能被黑客操纵以窃取敏感信息。安全专家发现，通过社会工程学手段，Copilot AI 可能泄露关键数据。微软对此迅速回应，承诺进行全面安全审查并加强防护措施，同时呼吁企业提升网络安全意识，共同构建安全的 AI 环境。

🛶 跨界 AI

共情能力导诊大模型：有望用于术前谈话，减少医患冲突

中国医学科学院基础医学研究所团队研发的导诊大模型“特定场景提示增强对话机器人”通过临床试验，该模型结合真实医患对话构建，具备专业性和共情能力。在前瞻性随机对照试验中，该模型在事实性、安全性、共情能力上均优于人类，能降低重复沟通和医患冲突比例。研究成果已在《自然医学》发表，标志着 AI 在医疗领域的应用迈出重要一步。

北大张铭团队开发 ActFound 模型，160 万数据训练，加速癌症药物研发

北京大学计算机学院张铭教授团队与华盛顿大学等合作，开发了生物活性基础模型 ActFound。该模型利用 160 万数据训练，采用成对学习和元学习技术，有效解决了生物活性预测中的兼容性和泛化问题。ActFound 在多个生物活性评测基准数据集上表现出色，可作为自由能微扰计算工具的替代方案。实验显示，ActFound 在先导小分子优化和癌症药物反应预测方面具有显著优势，大幅提高预测效率，为药物研发带来新动力。

全球首个 AI 流媒体音乐 App 来了！中国公司昆仑万维推出 Melodio

昆仑万维开发的 Melodio 是全球首个 AI 流媒体音乐 App，支持无限流式音乐生成，用户可通过 Prompt 定制音乐风格。App 界面简洁，提供歌曲参考模式和歌词查询功能。此外，昆仑万维还推出了 AI 音乐创作平台 Mureka，简化音乐创作流程，支持音乐二次创作和销售，具有创作证明。两款产品均基于昆仑万维的 Sora 架构，实现行业领先的音质和自然度。昆仑万维凭借 16 年出海经验，其 AI 音乐产品迅速打入海外市场，推动音乐创作民主化，为音乐爱好者和专业人士提供创作灵感和便利。

图森未来将打造《三体》系列动画长篇电影及视频游戏：正式进军生成式 AI 应用领域

自动驾驶公司图森未来宣布与上海三体动漫合作，开发《三体》系列动画电影和视频游戏。同时，图森未来成立新业务部门，正式进入生成式 AI 应用领域，利用自动驾驶技术积累，专注于媒体和游戏领域的 AI 应用。公司总裁吕程表示，这将推动新技术商业化，放大人类创造力，缩短内容开发周期。图森未来将继续推动自动驾驶技术商业化，重视亚太地区和全球市场。

🎮 企业动态

OpenAI 投的代码神器“叛变”了：Cursor 代码工具默认切换至 Claude，引发程序员热烈追捧

OpenAI 投资的代码工具 Cursor 将其默认模型更新为 Claude，尽管价格是 GitHub Copilot 的两倍，但因其强大的功能和便利性，如光标位置预测和多行编辑，以及跨文件编辑能力，获得了程序员的广泛好评。这一变化标志着 OpenAI 在代码生成领域的暂时失利，同时暗示了 Claude 在该领域的统治力。此外，Replit 等其他平台也开始集成 Claude，进一步证明了其影响力。

软银与英特尔合作失败！

软银原计划与英特尔合作开发 AI 芯片以挑战英伟达，但因英特尔未能满足产量和速度要求，合作失败。孙正义原计划投资数十亿美元，推动软银成为 AI 领域的中心。尽管合作未果，软银仍寻求其他合作伙伴，并继续向谷歌、Meta 等科技巨头推销其 AI 项目。英特尔近期宣布重大成本削减措施，包括裁员约 15000 人，占员工总数 15%，以实现 2025 年节约 100 亿美元的目标。

CMU 教授 Zico Kolter 空降 OpenAI 董事会，曾用一句话攻破 ChatGPT

卡内基梅隆大学教授兼机器学习系主任 Zico Kolter 成为 OpenAI 董事会成员，同时加入安全委员会。Kolter 在 AI 安全性和稳健性领域有显著贡献，其研究与 OpenAI 的安全工作高度契合。此前，Kolter 团队曾成功挑战 ChatGPT 的安全机制，展示了绕过现有保护措施的潜力。他的加入被看作是 OpenAI 在人工智能安全领域加强努力的标志。

📑 学术前沿

OpenAI 推出 SWE-bench Verified，更精准评估 AI 的代码能力

OpenAI 推出了 SWE-bench Verified，这是对现有 SWE-bench 软件工程评估套件的改进。新版本通过人工验证解决了原始套件中的一些问题，如单元测试过于具体和问题描述不明确，提高了评估 AI 模型解决现实世界软件问题能力的可靠性。SWE-bench Verified 包含 500 个经人工筛选的样本，使用容器化 Docker 环境简化评估过程。改进后的评估显示，AI 模型性能显著提升，更准确地反映了模型的代码能力。

香港大学发布组合性文生视频基准，7 大类 20 项指标，让 20 个大模型一决雌雄

香港大学推出 T2V-CompBench，一个全新的文生视频大模型评估基准，包含 7 大类 20 项指标，对 20 个主流视频生成模型进行全面测评。该基准测试首次引入“组合性”概念，通过 700 个文本提示覆盖不同视频生成挑战，旨在优化模型在复杂动态场景下的表现。研究显示，尽管技术进步显著，商业模型整体优于开源模型，但所有模型在动态属性绑定和生成数字等任务上仍面临挑战。

「AI 数据荒」雪上加霜！MIT：网页数据的公开共享正走向衰落

MIT 研究发现，随着网页数据共享政策收紧，开源数据集如 C4、RefineWeb 和 Dolma 所依赖的网站越来越多地限制数据获取。这不仅对商用 AI 模型训练产生影响，也阻碍了学术和非营利研究。研究指出，数据共享空间的限制激增，许可协议的不对称性和不一致性问题显著，同时网络数据与 AI 模型训练用途存在不匹配问题。预测显示，开放网络数据的限制趋势将持续，对 AI 领域造成长远影响。

我国科学家突破硅基闪存器件尺寸极限！

我国科学家在硅基闪存技术领域取得重大进展，首次实现 1Kb 纳秒超快闪存阵列集成验证，证明其超快特性可延伸至亚 10 纳米。该技术在 1Kb 存储规模下，非易失编程速度达到纳秒级，良率高达 98%，超出国际半导体技术标准。器件沟道最短达到 15 纳米，具备 20 纳秒超快编程能力、10 年数据保持和 10 万次循环寿命，推动了超快闪存技术的产业化发展。

30 行代码，500 万长文本推理提速 8 倍！「树注意力」让 GPU 越多省的越多

树注意力（Tree Attention）技术通过优化多 GPU 间的通信，显著提升了长文本推理性能。与传统环注意力相比，树注意力在设备数量增加时通信步数呈对数而非线性增长，实现高达 8 倍的推理速度提升。该技术基于谷歌 Jax 框架，仅需 30 行代码即可实现与 Flash Attention 的整合。树注意力还充分利用 GPU 集群的两级拓扑特点，优化了跨节点通信，为大型公司高推理需求提供了重要支持。

Meta 宣布推出 UniBench：视觉推理需要重塑视觉语言模型，而不是一味缩放

Meta 的人工智能研究机构 FAIR 推出了 UniBench，一个创新的视觉语言模型评估框架，通过 50 多个基准测试覆盖多个能力维度，旨在解决现有评估的碎片化和复杂性问题。UniBench 强调模型规模和数据量增加的局限性，指出数据质量和针对性学习目标的重要性，并揭示了视觉语言模型在基础认知任务上的弱点。该框架支持灵活的评估接口，简化了新模型或基准的添加过程，并通过精简版评估集降低了评估成本，促进了快速全面的模型评估。

阿里开源数学推理模型 Qwen2-Math：超 GPT-4o，数学能力全球第一！

阿里巴巴开源了新型数学模型 Qwen2-Math，包含 1.5B、7B 和 72B 三种参数版本。在多个数学基准测试中，Qwen2-Math-72B 指令微调版本表现卓越，超越了 GPT-4o 等知名模型，包括 Meta 的 Llama-3.1-405B。该模型采用高质量数学语料库预训练，并结合奖励信号与二元信号进行指令微调，通过 GRPO 强化学习算法优化。Qwen2-Math 在解决数学竞赛难题方面展现出强大能力，目前仅支持英文，但双语版本即将推出。

手机跑大模型提速 4-5 倍！微软亚研院开源 T-MAC 技术，有 CPU 就行

微软亚洲研究院开发了 T-MAC 技术，一种基于查找表（LUT）的混合精度矩阵乘法计算范式，大幅提升了在普通 CPU 上运行大型语言模型的速度，提速可达 4-5 倍。该技术优化了矩阵计算顺序、参数布局等，实现了高通骁龙芯片设备上的高生成速率和树莓派上的稳定性能，同时显著降低能耗。T-MAC 的开源为端侧 AI 部署提供了新机遇，预示着未来智能设备上 AI 应用的广泛潜力。

Mamba 再次挑战霸主 Transformer！首个通用 Mamba 架构大模型一鸣惊人

技术创新研究所(TII)开源了 Falcon Mamba 7B，这是首个通用的 Mamba 架构大模型，性能与 Transformer 匹敌，尤其在处理长文本方面显示出内存效率优势。该模型采用 SSLM 架构，无需额外内存即可生成大量文本，解决了 Transformer 在长文本处理上的难题。Falcon Mamba 7B 在多个基准测试中表现优异，超越了同尺寸的 Llama 3.1 8B 和 Mistral 7B 模型。它将通过 TII Falcon License 2.0 发布，支持企业级应用，如机器翻译和文本摘要等。