AI 视界周刊由战场小包维护,每周一更新,包含热点聚焦、应用破局、学术前沿、社区热议、智见交锋、跨界 AI、企业动态和争议 AI 八大板块,后续板块划分和内容撰写在周刊迭代过程中持续优化,欢迎大家提出建议。
欢迎大家来到《AI 视界周刊第 5 期》(08/12~08/18)。
✨ 热点聚焦
直播版 Deepfake 太恐怖!单张照片实时视频换脸,5 分钟安装不挑硬件
Deep-Live-Cam 项目通过 AI 技术实现单张照片实时换脸,无需专用硬件支持,安装简便,效果逼真。该技术在 GitHub 上迅速走红,引发网友热议。虽然为人工智能 media 行业带来便利,但也存在被滥用的风险。项目开发者提醒用户注意道德使用,并建议在使用真人面孔时征得同意。同时,AI 换脸技术的应用也引起了社会对真假难辨的担忧,呼吁开发深度伪造检测工具以应对潜在风险。
Nature 曝惊人内幕:论文被天价卖出喂 AI!出版商狂赚上亿,作者 0 收入
Nature 杂志披露,学术出版商如 Taylor & Francis 和 Wiley 通过向科技公司出售论文数据赚取巨额利润,而论文作者却未获任何回报。学术论文成为训练 AI 模型的宝贵数据源,但版权争议和作者权益问题随之浮现。尽管存在技术手段尝试识别论文是否被用于 AI 训练,但证明难度极高。同时,多模态数据集的构建,如利用 arXiv 论文中的图文,为 AI 模型提供了新的训练资源,提升了模型在特定领域的能力。
ChatGPT 狂飙 600 多天后,中国有近 8 万家 AI 公司消失
自 ChatGPT 发布以来,中国 AI 领域经历了企业数量的激增,但随之而来的是大量企业的注销或吊销。据统计,近 8 万家 AI 公司已消失,占新注册企业总量的 8.9%。这一现象背后是算力成本高、研发投入大、盈利能力不足等挑战。同时,市场融资遇冷,中美大模型技术差距及应用优化问题也成为行业关注的焦点。
Llama 8B 通过搜索提升性能,超越 GPT-4o!新「Scaling Law」诞生?
最新研究表明,通过搜索技术,参数量仅 8B 的 Llama 3.1 模型在 Python 代码生成任务上实现了对 GPT-4o 性能的追赶甚至超越。这项发现基于强化学习先驱 Rich Sutton 的 Scaling Law 理念,强调了学习和搜索在 AI 发展中的重要性。实验通过 100 次搜索,Llama 3.1 在 HumanEval 基准测试中的 pass@k 分数显著提升,特别是在 k 为 1000 时,性能优于 GPT-4o。这表明,在推理阶段通过搜索方法增强,即使是较小的模型也能以可预测的方式胜过大型模型。搜索方法的强大之处在于其可随着计算量的增加进行透明扩展,有助于实现资源的进一步平衡。
世界最强智能体 Agent Q 发布:较 LLama 3 性能提升了 340%
MultiOn AI 公司推出 Agent Q,一款性能超越 LLama 3 的下一代 AI 代理。Agent Q 具备自我监督和自我修复能力,通过自我对弈和互联网强化学习实现自我提升。它利用树搜索和评价模型优化行动策略,使用零样本视觉语言模型进行结果验证。Agent Q 在模拟和现实应用中表现出色,尤其在在线预订任务中,零样本性能显著提升,显示出其在复杂环境中的卓越能力。研究还探讨了模型微调和搜索方法的改进,以及安全性和用户参与的重要性。
爆火毒舌 AI 每小时赚 2.8 万!每分钟 36 个新用户,火遍全球只因改了一句提示词
一款名为“毒舌 AI”的 Twitter 应用通过犀利点评用户历史发言迅速走红,实现每小时 2.8 万元的收入。该应用基于 Wordware 低代码平台构建,无需高深技术即可创建复杂 AI 应用。开发者 Kyzo 开源了所有代码和提示词,鼓励二次开发。用户增长导致成本压力,团队不得不开启付费墙并动态调整价格策略。Wordware 平台的易用性和灵活性,加上 AI 的强大功能,使得这款应用在短时间内吸引了全球用户的关注,并在日本市场尤为成功。
OpenAI 首席战略官 Jason Kwon:不会一夜之间突然发布一个“包罗万象”的 AI
OpenAI 首席战略官 Jason Kwon 在接受采访时表示,通用人工智能(AGI)可能在几年内实现,但不会突然全面推出以避免社会冲击。他强调,尽管技术进步迅速,但需要谨慎管理以防止负面后果。Kwon 认为企业应准备应对 AGI 的潜在威胁,并主张 AI 应受到监管。
📲 应用破局
业界首个、开箱即用,华为 AI 训推全流程工具链 ModelEngine 亮相
华为在 2024 全球开源技术峰会上展示了 ModelEngine,这是业界首个开箱即用的 AI 训推全流程工具链。ModelEngine 集成了 AI 流式编程框架,为数据处理工程师、模型工程师和应用开发者提供一站式 AI 开发体验。它支持开放的数据处理算子、主流模型和应用算子,大幅缩短了语料生成时间,帮助开发者快速构建 AI 应用,并支持 LangChain、LlamaIndex 等插件,保护现有 AI 资产。
成本降低 90%!Claude 上新 Gemini 同款提示词缓存,一次性记住整个代码库
Claude 新功能允许 API 一次性记忆整本书或代码库,显著降低处理长文本的延时和成本。该技术通过提示词缓存,减少重复输入,提高效率。谷歌 Gemini 和国内 Kimi、DeepSeek 团队已先行采用。缓存有效期限五分钟,但可重置。应用场景包括对话、代码助理、文档处理等,成本节约高达 90%。定价策略中,写入和读取价格独立,随缓存使用次数增加,成本优势更明显。此更新对开发者是重大利好,预示着大模型厂商可能的新标配。
没有等来 OpenAI 开源 GPT-4o,等来了开源版 VITA
腾讯优图实验室等机构研究者推出首个开源多模态大语言模型 VITA,能处理视频、图像、文本和音频。基于 Mixtral 8×7B,扩展汉语词汇量并进行双语微调,通过多任务学习赋予视觉和音频能力。VITA 在多语言、视觉和音频理解上表现卓越,提升了自然多模态人机交互体验,采用复式部署,实现环境输入跟踪和用户查询响应,为开源社区在多模态理解和交互领域提供重要贡献。
马斯克突发新版大模型,牺牲特斯拉资源叫板 OpenAI,Grok-2 一手实测来了
Elon Musk 的 xAI 公司推出了 Grok-2 大模型,其测试版 Grok-2 mini 已在 𝕏 平台上线。Grok-2 在多个领域表现出色,尤其在视觉数学推理方面达到 SOTA 水平。该模型能访问实时数据,进行新闻总结和趣味吐槽,还能接入 AI 生图模型 Flux.1。尽管 Grok-2 性能显著,马斯克从特斯拉转移资源至 xAI 引发股东不满,目前相关案件正在审理中。
开源 AI 视频工具,你只需要当导演,HuggingFace 工程师打造
Clapper 是一款由 HuggingFace 工程师 Julian Bilcke 开发的开源 AI 视频编辑工具,旨在简化视频制作流程。用户无需视频编辑或 AI 工程技能,通过调整角色、场景等高级概念,利用 AI Agent 迭代故事。内置大模型如 GPT-4o 和 Claude 3.5,实现从文本到视频的自动转换。Clapper 提供了导演模式,允许用户通过命令控制 AI 制作电影。尽管功能强大,但视频效果仍有改进空间,如动作不自然和配乐质量。Clapper 在 GitHub 上获得 1100+ Star,为传统视频编辑软件提供了 AI 集成的新思路。
快手推出“飞船”App:基于“快意”AI 模型,主打虚拟陪伴
快手最新发布了基于自研"快意"AI 模型的"飞船"App,主打个性化虚拟陪伴。用户可以与 AI 助手进行自然语言对话,解答疑问,获取娱乐和创作灵感。App 支持创建和定制专属 AI 角色,提供内容创作辅助和高度定制化功能,同时具备语音交互能力,旨在提升用户的生活质量和工作效率。
情侣合照逼真到恐怖,竟被代码识出破绽?沃顿教授预言 AI 18 个月封神!
AI 生图工具 Flux 以其逼真的图像生成能力迅速走红,引发全网关注。该工具能够生成几乎无法辨认真伪的情侣合照,展示了 AI 在图像、视频和声音合成方面的巨大进步。开源模型的可玩性为二创、广告、教学等领域提供了新的可能性。沃顿商学院的 AI 教授预言,AI 将在 18 个月内完成重大进化,届时实时生成的 AI 朋友或治疗师将成为现实。同时,技术的发展也带来了对真伪辨识的挑战,前谷歌搜索创始人之一提出了通过提高图像饱和度来识别 AI 生成图像的方法。
VideoDoodles:手绘涂鸦动画与视频无缝融合的 AI 神器
Adobe 与大学合作开发的 AI 工具 VideoDoodles,允许用户在视频中轻松添加手绘动画并实现无缝融合。该工具通过预处理视频、平面画布绘制、跟踪算法和 3D 位置跟踪,简化了动画制作过程。用户只需在关键帧上绘制,系统便自动生成动画,解决了透视和遮挡问题。实验显示,VideoDoodles 在跟踪准确性和用户满意度上优于现有方法,同时提供了易于使用的界面和高效的创作流程,适用于多种视频创作场景。尽管存在平面画布限制和方向跟踪改进空间,VideoDoodles 展现了强大的创作潜力和用户友好性。
OpenAI「草莓」提前曝光?ChatGPT 版搜索引擎惊现神秘模型
OpenAI 的「草莓」项目备受关注,尽管具体细节尚未公开,但其竞争对手 Perplexity AI 已展示具备类似「草莓」能力的新模型。Perplexity AI 的 CEO Aravind Srinivas 通过在线演示展示了其 AI 的逐步思考能力,如成功解答「草莓覆盖火星」的问题。Perplexity AI 的月度收入和使用量自年初以来增长了 7 倍,目前已完成 2.5 亿美元的新一轮融资,其商业模式正从订阅转向广告,与谷歌等展开竞争。尽管 AI 生成错误信息的风险存在,但 Perplexity AI 正努力提高 AI 的可靠性,以适应主流使用。
⏳ 社区热议
笑死!马斯克成 Grok2 最大受害者,恶搞图满天飞
Grok 2.0 AI 模型上线引发网络恶搞热潮,马斯克成为焦点。用户通过模型生成了各种荒诞不经的马斯克形象,包括与名人互动的虚构场景。Grok 2.0 的逼真 AI 生图功能由 Flux.1 提供支持,与 Stable Diffusion 同源。模型虽设安全限制,但版权和敏感内容问题仍存。科技媒体和网友对 Grok 未来表示担忧,同时对其性价比和会员功能表示认可。
国产版毒舌 AI 上线!雷军意外躺枪,体验后我破防了
一款国产毒舌 AI 上线,以其犀利的言辞在微博引发广泛关注。AI 不仅对微博大 V 进行疯狂 diss,连雷军也意外成为其调侃对象。该 AI 能够全面分析人的优点和缺点,甚至涉及情感和事业,其幽默且尖锐的评论让人破防。体验地址已提供,用户可亲自感受这款 AI 的独特魅力。
🎏 智见交锋
联想杨元庆:AI 绝不是泡沫,不要千军万马走一个独木桥
联想集团董事长杨元庆坚信 AI 技术非泡沫,看好其在各行业的应用前景。联想通过发展混合智能,结合公共与私有 AI,实现业务增长。2024/25 财年首季营收和净利润均大幅增长,AI PC 市场潜力巨大,智能手机业务在亚太、欧洲-中东-非洲地区增长强劲。联想在云基础设施领域也取得显著进展,积极推动 AI 在企业级应用中的落地。尽管面临研发和库存挑战,联想保持技术领先,杨元庆对 AI 未来充满期待,预言个人用户将拥有"AI 代理"或"AI 双胞胎"。
硅谷知名投资人 Elad Gil 最新洞察:开源若追上闭源,将显著改变 AI 寡头垄断格局
硅谷知名科技投资人 Elad Gil 预测,未来几年 AI 领域将形成由几家巨头公司主导的寡头垄断局面。然而,开源模型如 Meta 的 LlaMA 若能迎头赶上,可能会引发行业变革,经济价值将由闭源提供商转移至云服务商。Gil 认为,随着大型语言模型的迭代,AI 能力将大幅提升,为医疗、教育等领域带来新的市场机会。同时,他探讨了社会进步、创新加速以及 AI 对人类社会的深远影响。
大模型开闭源之争,争的是什么?
中美 AI 产业围绕大模型开源与闭源的争论激烈。开源模型以社区贡献促进技术迭代,而闭源模型则以商业化和性能优势为卖点。企业如百度、OpenAI 倾向于闭源以快速商业化,而阿里云、Meta 选择开源以扩大市场。开源与闭源各有市场定位,长期共存。开源模型虽免费但需自行调整,闭源模型提供成熟服务但需付费。性能是成本的决定因素,闭源模型长期看可能更具成本效益。企业客户更关注效果、性能、价格和安全,而非单一的开源或闭源属性。未来市场将见证开源与闭源模型的持续竞争与共存。
扎克伯格最新创业分享:下一代大公司将建立在开源 AI 基础上
扎克伯格在 SPC 黑客松活动中预言,下一代大公司将基于开源 AI 建立。他强调了 AR 眼镜和 VR 头盔作为未来计算平台的重要性,并预计这些设备将在 10 至 15 年内普及。在创业方面,他分享了如何应对情绪起伏和团队早期文化建设的重要性。扎克伯格还提到,Meta 的顶级产品经理都是通过转岗成长起来的,反映了公司文化和个人关系的深远影响。此外,他个人通过参与 MMA 和冲浪等运动来管理压力,强调了运动与工作之间的平衡。
比尔盖茨:AI 行业倍数并没有像互联网泡沫时期夸张,而且所展现的增长是真实的
比尔·盖茨在访谈中强调 AI 行业增长的真实性,与互联网泡沫时期不同,AI 技术在能源转型和气候解决方案中扮演关键角色。他认为 AI 对电力需求的增加远低于其他行业,且可通过提高效率减少能源消耗。盖茨指出,尽管全球在实现净零排放目标上有所滞后,但对逆转气候变化的前景保持乐观,认为技术创新和政策支持是关键。他还提到,尽管碳捕获技术重要,但成本需降至每吨 100 美元以下才具竞争力。盖茨对气候技术投资表示乐观,认为资本和市场对绿色技术的需求日益增长。
🎯 争议 AI
警惕!AI 生成的假马斯克成网络诈骗新宠
随着 AI 技术发展,深度伪造技术被用于网络诈骗,尤其是伪造埃隆·马斯克的视频,误导投资者造成重大损失。82 岁退休老人史蒂夫·比彻姆因观看伪造视频损失 69 万美元。社交媒体成为传播重灾区,监管难度加大。用户需提高警惕,核实信息真实性,避免成为诈骗目标。平台加强监管,用户提高自我保护意识,共同抵御诈骗威胁。
Apple Intelligence 存重大安全缺陷,几行代码即可攻破!Karpathy 发文提醒
Apple Intelligence 在 Beta 测试中被发现存在重大安全缺陷,开发人员 Evan Zhou 通过提示注入攻击成功操纵了 AI 系统,绕过了预期指令。这种攻击方式可导致数据泄露、生成恶意内容。技术安全专家 Bruce Schneier 指出,问题源于数据和控制路径未分离。Andrej Karpathy 也指出了类似 SQL 注入的漏洞,建议通过编程显式添加特殊 token 以增强安全性。
集体诉讼已受理:艺术家指控 Stability AI、Midjourney 等公司侵犯版权
美国地方法院已批准多名艺术家对 Stability AI、Midjourney 等 AI 公司的集体诉讼继续进行,原告指控这些公司非法使用他们的版权作品来训练 AI。法官威廉·奥里克批准了对 Stability AI 的诱导性版权侵权索赔,同时受理了对 DeviantArt 和 Runway AI 的版权索赔,以及对 Midjourney 的版权和商标侵权索赔。不过,法官驳回了关于 AI 生成器违反《数字千年版权法》和 DeviantArt 违反服务条款的指控。涉及 4700 名艺术家的 Midjourney 案件中,原告认为公司存在误导内容,未经同意使用其作品。
加州要亲手扼杀 AI 创新?硅谷吵翻了天
加利福尼亚州议会提出的《前沿人工智能模型安全可靠创新法》(SB 1047)在硅谷引发激烈讨论。泰斗级专家如杰弗里·辛顿和约书亚·本吉奥支持监管以避免 AI 风险,而李飞飞和吴恩达等学者则担心过度监管会扼杀创新。法案要求 AI 公司进行安全测试并实施措施以降低风险,但遭到硅谷 AI 公司和创投行业的反对,担忧法案会导致公司搬迁,损害加州经济。尽管存在争议,法案在加州立法通过的可能性增大。
微软 Copilot AI 被指控可被黑客操纵,轻松窃取企业机密
微软的 Copilot AI,一款以深度学习技术辅助企业分析决策的工具,近期被曝光存在设计缺陷,可能被黑客操纵以窃取敏感信息。安全专家发现,通过社会工程学手段,Copilot AI 可能泄露关键数据。微软对此迅速回应,承诺进行全面安全审查并加强防护措施,同时呼吁企业提升网络安全意识,共同构建安全的 AI 环境。
🛶 跨界 AI
共情能力导诊大模型:有望用于术前谈话,减少医患冲突
中国医学科学院基础医学研究所团队研发的导诊大模型“特定场景提示增强对话机器人”通过临床试验,该模型结合真实医患对话构建,具备专业性和共情能力。在前瞻性随机对照试验中,该模型在事实性、安全性、共情能力上均优于人类,能降低重复沟通和医患冲突比例。研究成果已在《自然医学》发表,标志着 AI 在医疗领域的应用迈出重要一步。
北大张铭团队开发 ActFound 模型,160 万数据训练,加速癌症药物研发
北京大学计算机学院张铭教授团队与华盛顿大学等合作,开发了生物活性基础模型 ActFound。该模型利用 160 万数据训练,采用成对学习和元学习技术,有效解决了生物活性预测中的兼容性和泛化问题。ActFound 在多个生物活性评测基准数据集上表现出色,可作为自由能微扰计算工具的替代方案。实验显示,ActFound 在先导小分子优化和癌症药物反应预测方面具有显著优势,大幅提高预测效率,为药物研发带来新动力。
全球首个 AI 流媒体音乐 App 来了!中国公司昆仑万维推出 Melodio
昆仑万维开发的 Melodio 是全球首个 AI 流媒体音乐 App,支持无限流式音乐生成,用户可通过 Prompt 定制音乐风格。App 界面简洁,提供歌曲参考模式和歌词查询功能。此外,昆仑万维还推出了 AI 音乐创作平台 Mureka,简化音乐创作流程,支持音乐二次创作和销售,具有创作证明。两款产品均基于昆仑万维的 Sora 架构,实现行业领先的音质和自然度。昆仑万维凭借 16 年出海经验,其 AI 音乐产品迅速打入海外市场,推动音乐创作民主化,为音乐爱好者和专业人士提供创作灵感和便利。
图森未来将打造《三体》系列动画长篇电影及视频游戏:正式进军生成式 AI 应用领域
自动驾驶公司图森未来宣布与上海三体动漫合作,开发《三体》系列动画电影和视频游戏。同时,图森未来成立新业务部门,正式进入生成式 AI 应用领域,利用自动驾驶技术积累,专注于媒体和游戏领域的 AI 应用。公司总裁吕程表示,这将推动新技术商业化,放大人类创造力,缩短内容开发周期。图森未来将继续推动自动驾驶技术商业化,重视亚太地区和全球市场。
🎮 企业动态
OpenAI 投的代码神器“叛变”了:Cursor 代码工具默认切换至 Claude,引发程序员热烈追捧
OpenAI 投资的代码工具 Cursor 将其默认模型更新为 Claude,尽管价格是 GitHub Copilot 的两倍,但因其强大的功能和便利性,如光标位置预测和多行编辑,以及跨文件编辑能力,获得了程序员的广泛好评。这一变化标志着 OpenAI 在代码生成领域的暂时失利,同时暗示了 Claude 在该领域的统治力。此外,Replit 等其他平台也开始集成 Claude,进一步证明了其影响力。
软银与英特尔合作失败!
软银原计划与英特尔合作开发 AI 芯片以挑战英伟达,但因英特尔未能满足产量和速度要求,合作失败。孙正义原计划投资数十亿美元,推动软银成为 AI 领域的中心。尽管合作未果,软银仍寻求其他合作伙伴,并继续向谷歌、Meta 等科技巨头推销其 AI 项目。英特尔近期宣布重大成本削减措施,包括裁员约 15000 人,占员工总数 15%,以实现 2025 年节约 100 亿美元的目标。
CMU 教授 Zico Kolter 空降 OpenAI 董事会,曾用一句话攻破 ChatGPT
卡内基梅隆大学教授兼机器学习系主任 Zico Kolter 成为 OpenAI 董事会成员,同时加入安全委员会。Kolter 在 AI 安全性和稳健性领域有显著贡献,其研究与 OpenAI 的安全工作高度契合。此前,Kolter 团队曾成功挑战 ChatGPT 的安全机制,展示了绕过现有保护措施的潜力。他的加入被看作是 OpenAI 在人工智能安全领域加强努力的标志。
📑 学术前沿
OpenAI 推出 SWE-bench Verified,更精准评估 AI 的代码能力
OpenAI 推出了 SWE-bench Verified,这是对现有 SWE-bench 软件工程评估套件的改进。新版本通过人工验证解决了原始套件中的一些问题,如单元测试过于具体和问题描述不明确,提高了评估 AI 模型解决现实世界软件问题能力的可靠性。SWE-bench Verified 包含 500 个经人工筛选的样本,使用容器化 Docker 环境简化评估过程。改进后的评估显示,AI 模型性能显著提升,更准确地反映了模型的代码能力。
香港大学发布组合性文生视频基准,7 大类 20 项指标,让 20 个大模型一决雌雄
香港大学推出 T2V-CompBench,一个全新的文生视频大模型评估基准,包含 7 大类 20 项指标,对 20 个主流视频生成模型进行全面测评。该基准测试首次引入“组合性”概念,通过 700 个文本提示覆盖不同视频生成挑战,旨在优化模型在复杂动态场景下的表现。研究显示,尽管技术进步显著,商业模型整体优于开源模型,但所有模型在动态属性绑定和生成数字等任务上仍面临挑战。
「AI 数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落
MIT 研究发现,随着网页数据共享政策收紧,开源数据集如 C4、RefineWeb 和 Dolma 所依赖的网站越来越多地限制数据获取。这不仅对商用 AI 模型训练产生影响,也阻碍了学术和非营利研究。研究指出,数据共享空间的限制激增,许可协议的不对称性和不一致性问题显著,同时网络数据与 AI 模型训练用途存在不匹配问题。预测显示,开放网络数据的限制趋势将持续,对 AI 领域造成长远影响。
我国科学家突破硅基闪存器件尺寸极限!
我国科学家在硅基闪存技术领域取得重大进展,首次实现 1Kb 纳秒超快闪存阵列集成验证,证明其超快特性可延伸至亚 10 纳米。该技术在 1Kb 存储规模下,非易失编程速度达到纳秒级,良率高达 98%,超出国际半导体技术标准。器件沟道最短达到 15 纳米,具备 20 纳秒超快编程能力、10 年数据保持和 10 万次循环寿命,推动了超快闪存技术的产业化发展。
30 行代码,500 万长文本推理提速 8 倍!「树注意力」让 GPU 越多省的越多
树注意力(Tree Attention)技术通过优化多 GPU 间的通信,显著提升了长文本推理性能。与传统环注意力相比,树注意力在设备数量增加时通信步数呈对数而非线性增长,实现高达 8 倍的推理速度提升。该技术基于谷歌 Jax 框架,仅需 30 行代码即可实现与 Flash Attention 的整合。树注意力还充分利用 GPU 集群的两级拓扑特点,优化了跨节点通信,为大型公司高推理需求提供了重要支持。
Meta 宣布推出 UniBench:视觉推理需要重塑视觉语言模型,而不是一味缩放
Meta 的人工智能研究机构 FAIR 推出了 UniBench,一个创新的视觉语言模型评估框架,通过 50 多个基准测试覆盖多个能力维度,旨在解决现有评估的碎片化和复杂性问题。UniBench 强调模型规模和数据量增加的局限性,指出数据质量和针对性学习目标的重要性,并揭示了视觉语言模型在基础认知任务上的弱点。该框架支持灵活的评估接口,简化了新模型或基准的添加过程,并通过精简版评估集降低了评估成本,促进了快速全面的模型评估。
阿里开源数学推理模型 Qwen2-Math:超 GPT-4o,数学能力全球第一!
阿里巴巴开源了新型数学模型 Qwen2-Math,包含 1.5B、7B 和 72B 三种参数版本。在多个数学基准测试中,Qwen2-Math-72B 指令微调版本表现卓越,超越了 GPT-4o 等知名模型,包括 Meta 的 Llama-3.1-405B。该模型采用高质量数学语料库预训练,并结合奖励信号与二元信号进行指令微调,通过 GRPO 强化学习算法优化。Qwen2-Math 在解决数学竞赛难题方面展现出强大能力,目前仅支持英文,但双语版本即将推出。
手机跑大模型提速 4-5 倍!微软亚研院开源 T-MAC 技术,有 CPU 就行
微软亚洲研究院开发了 T-MAC 技术,一种基于查找表(LUT)的混合精度矩阵乘法计算范式,大幅提升了在普通 CPU 上运行大型语言模型的速度,提速可达 4-5 倍。该技术优化了矩阵计算顺序、参数布局等,实现了高通骁龙芯片设备上的高生成速率和树莓派上的稳定性能,同时显著降低能耗。T-MAC 的开源为端侧 AI 部署提供了新机遇,预示着未来智能设备上 AI 应用的广泛潜力。
Mamba 再次挑战霸主 Transformer!首个通用 Mamba 架构大模型一鸣惊人
技术创新研究所(TII)开源了 Falcon Mamba 7B,这是首个通用的 Mamba 架构大模型,性能与 Transformer 匹敌,尤其在处理长文本方面显示出内存效率优势。该模型采用 SSLM 架构,无需额外内存即可生成大量文本,解决了 Transformer 在长文本处理上的难题。Falcon Mamba 7B 在多个基准测试中表现优异,超越了同尺寸的 Llama 3.1 8B 和 Mistral 7B 模型。它将通过 TII Falcon License 2.0 发布,支持企业级应用,如机器翻译和文本摘要等。
后语
我是 战场小包 ,一个喜欢 AI 和前端的小编程。
如果喜欢小包,可以在 掘金 关注我,同样也可以关注我的小小公众号——小包学前端,公众号会持续地更新 AI 和前端的知识。
一路加油,冲向未来!!!