大模型应用新战场：揭秘终端侧AI竞争关键｜智在终端

QbitAl

于 2024-09-02 12:28:57 发布

阅读量974

点赞数 15

文章标签：人工智能

本文链接：https://blog.csdn.net/QbitAI/article/details/141833379

版权

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

2024年过去2/3，大模型领域的一个共识开始愈加清晰：

AI技术的真正价值在于其普惠性。没有应用，基础模型将无法发挥其价值。

于是乎，回顾这大半年，从互联网大厂到手机厂商，各路人马都在探索AI时代Killer APP的道路上狂奔。这股风潮，也开始在顶级学术会议中显露踪迹。

其中被行业、学术界都投以关注的一个核心问题就是：

在大模型“力大砖飞”的背景之下，AIGC应用要如何在手机等算力有限的终端设备上更丝滑地落地呢？

△Midjourney生成

这段时间以来，ICML（国际机器学习大会）、CVPR（IEEE国际计算机视觉与模式识别会议）等顶会上的最新技术分享和入选论文，正在揭开更多细节。

是时候总结一下了。

AI应用背后，大家都在聚焦哪些研究？

先来看看，AI应用从云端迈向终端，现在进展到何种程度了。

目前，在大模型/AIGC应用方面，众多安卓手机厂商都与高通保持着深度合作。

在CVPR 2024等顶会上，高通的技术Demo，吸引了不少眼球。

比如，在安卓手机上，实现多模态大模型（LLaVA）的本地部署：

△Qualcomm Research发布于YouTube

这是一个70亿参数级别的多模态大模型，支持多种类型的数据输入，包括文本和图像。也支持围绕图像的多轮对话。

就像这样，丢给它一张小狗的照片，它不仅能描述照片信息，还能接着和你聊狗狗适不适合家养之类的话题。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

QbitAl

关注关注

15
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

参与评论您还未登录，请先登录后发表或查看评论

博客

8秒极速生成！复杂场景图像定制低成本轻松驾驭，已开源丨字节北大联合发布

05-12

另外，为了支持DreamO的多任务优化，作者构建了大规模包含各种任务的训练数据，例如风格迁移、单主体保持、多主体保持、单ID保持、多ID保持、ID风格化，以及虚拟试衣等。将该模型与GPT-4o等一众商业大模型做对比，尽管在语义理解、定制多样性上还有差距，但该模型展现出了极强的一致性保持能力，甚至在一定程度上超越了一些商业大模型。首先，复用Flux的VAE将条件图像编码为隐空间表征，随后序列化，与文本和图像token合并输入Flux模型，为处理条件图像输入，引入了专门的映射层。

博客

清华&通院推出“绝对零“训练法，零外部数据大模型自我博弈解锁推理能力

05-12

与未经“绝对零”训练的版本相比，“绝对零”将Qwen-2.5-7B-Coder的HumanEval+通过率从80.5%提高到了83.5%，将MBPP+的通过率从69.3%提高到了69.6%，将LCB的通过率从19.9%提高到了31.7%。经过多轮迭代，“绝对零”最终可以收敛到一个很好的均衡点，在这个点上，Proposer生成的任务恰好匹配Solver的能力，Solver又能够从这些任务中学到足够多的知识。通过两个角色的交替和协同，模型可以自主地构建学习任务分布，并在求解任务的过程中不断提升推理能力。

博客

陶哲轩油管首秀：33分钟，AI速证「人类需要写满一页纸」的证明

05-12

根据介绍，这是一个用Python开发的轻量级证明助手，其功能远逊于Lean、Isabelle或Rocq等完整证明助手，但（希望）它能够轻松用于证明一些简短而繁琐的任务。针对这一疑惑，陶哲轩提议今后可以在论文中明确说明，虽然最初的证明是由计算机生成的，但在项目进行过程中，研究者们成功地将其转化为一个人类可读的证明。最后，它使用精确线性规划来寻找这些不等式的线性组合，从而导致荒谬的不等式，在这种情况下0<1。第二次虽然完成了所有证明。在他看来，尽管最终的结果“并不优雅”，但它体现了AI辅助证明的巨大潜力。

博客

字节Seed首次开源代码模型，拿下同规模多个SOTA，提出用小模型管理数据范式

05-11

今年年初，字节正式设立代号为“Seed Edge”的研究项目，核心目标是做比预训练和大模型迭代更长期、更基础的AGI前沿研究，项目成员拥有宽松的研究环境、独立计算资源，并实行更长期的考核方式。评分模型被要求给出一个从0到10的总体评分，并提供详细解释，之后将分数重新缩放到[0,1]范围，并使用1.3B参数的预训练Llama 2模型，通过回归头进行一个epoch的微调作为质量评分器。，使用所有四个类别的数据，并额外引入了高质量数据集和长上下文数据集，以增强性能并进行对齐，同时刺激模型理解长上下文数据的能力。

博客

DeepSeek精度效率双提升，华为&信工所提出思维链“提前退出”机制

05-11

在HumanEval和BigCodeBench两个programming测试集上，作者的方法实现了平均减少64.9%的生成长度，而pass@1提高了2.1个点，并对0.95附近的阈值表现鲁棒，不会有显著波动。直觉上，DEER中的答案诱导和置信度评价的计算在推理过程中引入了额外的延迟，特别是对于测试答案仍然很长的代码生成任务，这降低了通过缩短思维链序列而获得的效率增益。定量结果表明，在仅使用20%的推理步骤就提前退出的静态设定下，对于MATH-500，有60.8%的正确回答样本依然能保持正确；

博客

开源全能图像模型媲美GPT-4o！理解生成编辑同时搞定，解决扩散模型误差累计问题

05-11

作为一个All-to-All模型，Nexus-Gen的输入和输出都支持图像和文本模态，自回归Transformer输出的文本Token进行分类后解码成对应的输出文本。对于生成任务，这些特征则作为真值指导模型的训练。开源的MLLMs和扩散模型已经过大规模预训练，其从零开始训练统一任务，不如取长补短，将MLLMs的语言建模能力，与扩散模型的像素级图像建模能力，进行有机的结合。之后，团队从开源社区收集了约25M训练数据并转化为以上统一的格式，其中，图像理解数据6M，图像生成数据12M，图像编辑数据7M。

博客

机器人开始抢“主持人”饭碗！上海张江，傅利叶宣布下个十年规划，要做“以人为本的具身智能”

05-10

不管是什么形态，背后做的其实就是人机交互这一件事，让机器人能真正理解人、配合人，能在复杂、真实的环境里，稳定、安全地工作。傅里叶是位法国数学家，他提出的傅里叶变换。，基于傅利叶GR-1人形机器人，验证了视觉语言大模型在手势生成、非语言交流里的适应性与自然度，结果表明，机器人手势自然度甚至超越真人示范。我们的团队，经历过技术的迭代升级，商业周期的起伏，依旧保持着创新活力，初心不改。为探索模仿学习、泛化性训练，前不久，英伟达发布的首个人形机器人开放基础模型，就部署在了傅利叶的人形机器人上。

博客

多模态=AGI入场券？阶跃星辰姜大昕：死磕基座大模型，探索多模态理解生成一体化

05-10

从模仿学习到强化学习的技术演进大家已经非常熟悉， OpenAI的o1、o3，以及DeepSeek-R1背后采用的都是强化学习技术，也是现在大模型玩家争先恐后着重投入的方向。”姜大昕表示，虽然阶跃的产品形态随着模型的演变是动态发展的，但这样的逻辑关系还是一直保持下去的。至于如何追求智能的上限，阶跃目前行进的路线与第一次公开亮相时所讲的那样一般无二，即“单模态——多模态——多模态理解和生成的统一——世界模型——AGI”。姜大昕说，阶跃不想在这个过程中放弃主流增长或前进的趋势，所以还是会坚持做基础模型的研发。

博客

一个「always」站在大模型技术C位的传奇男子

05-10

757

虽然MoE的思路早在上世纪90年代初就已经被提出，以Michael I. Jordan、Geoffrey Hinton等的《Adaptive Mixtures of Local Experts》为代表，但沙哥参与的这项研究通过动态激活子网络，让模型突破更大规模参数成为可能，启发了后续诸多基于MoE的模型改进和创新。2006年，他创建了谷歌第一个垃圾邮件检测的机器学习系统；8月，一切尘埃落定，谷歌以27亿美元的价格将Character.AI技术纳入麾下，并邀请沙哥回归，负责联合领导谷歌的Gemini项目。

博客

首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科”

05-10

以往的方法常使用更强的语言模型生成更好的响应，使用较弱的语言模型生成较差的响应，但这样根本没法评估模型对内容细微变化的敏感度，也测不出对风格偏差的处理能力，和策略模型性能的相关性也很低。为此，研究团队提出的RM-BENCH这个全新的基准测试，这是一种全新的基准，用于评估奖励模型区分微妙变化和抵抗风格偏差的能力，对语言模型的”认知敏锐度”发起挑战。这表明许多现有的奖励模型更像是风格偏好模型，在预测奖励时，奖励模型很容易受到响应风格的影响，偏离了响应的实质内容，好似“AI精神分裂”。

博客

鹅厂开源视频生成大杀器！参考图主体精准复刻，还能编辑现有视频

05-09

184

具体来说，HunyuanCustom先将输入图像通过预训练的3D-VAE编码器映射到潜空间，得到图像潜码，然后将其与视频潜码在序列维度上进行连接，形成新的潜码表示。具体而言，给定一个视频片段的起始潜码和结束潜码，以及表示身份的参考图像，模型学习预测视频潜码在不同时间步上的演化方向和速度，并以最小化速度重建误差为目标进行优化。其核心是将表示身份的图像特征连接到视频的每一帧上，利用视频生成模型在时间维度上的建模能力，使身份信息在生成视频的各个帧之间得到有效传播和增强。企鹅也友好地点头示意，仿佛在回应他的问候。

博客

面壁CEO李大海：物理世界要实现AGI，一定是通过端侧智能 | 中国AIGC产业峰会

05-09

过去一年我们发布了九个端侧模型，在今年1月份的时候发布了全球第一个端侧全模态的模型，大概是8B大小的模型，这个模型能流畅运行在iPad上，可以实时流式的实时看，持续听，自然说，并且“看听说”的水平从多模态角度上达到了GPT-4o的水平，虽然解决复杂的逻辑问题层面上，还是跟云端模型有区别，但是在多模态能力上已经非常强。第二，如果在云端，完成舱内舱外视觉信息视频流的感知回传，可能推理的成本不算高，但是高清视频流实时传输的带宽成本很高，其次背后也有大量的隐私信息，因此不仅成本高，还有很多隐私暴露的风险。

博客

国内大模型人才大战打响！大厂各出奇招，薪资不设上限、CTO亲自参与指导、无需实习经验

05-09

1039

随着AI进入应用元年，人们对多模态的需求逐渐成为刚需，不过相关技术并未成熟，以致于包括大厂在内，市面上的多模态AI产品仍比较少见。作为想要应聘的学生，要么在顶会期刊上发表过有影响力的论文，要么就是竞赛达人，主打一个优秀本秀，甚至字节的Top Seed计划仅面向博士生。字节则继续加持豆包智能助手，基于原有的内容生态积累，牢牢捍卫住他们榜首之位，截至4月底，豆包在25年的新增下载已近亿，累计用户规模近3亿。首先，数据和人才是企业竞争的核心资源，对于大厂来说，不缺数据不缺场景，缺的是滔滔不绝的人才。

博客

顶尖科学家Rob Fergus重掌FAIR，15万引用学者回归Meta，战略转向AGI

05-09

代表作包括与学生Matthew D. Zeiler合作的《Visualizing and Understanding Convolutional Networks》，也就是ZFNet，提出了可视化卷积神经网络中间层特征和分类器操作的新颖技术，对当时理解和改进CNN模型具有重要意义。除了对抗样本之外，这篇论文还提出在神经网络的高层中，语义信息不存在于独立的神经元中，关键在于整个神经元激活的空间。大模型时代他的代表作包括与LeCun、谢赛宁等合作的Cambrian-1，一系列以视觉为中心的开源多模态模型。

博客

AI开源社区来了国家队！华为百度第一时间加入

05-09

744

魔乐社区是一个人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台，能够帮助每一位开发者学习获取领先的AI技术。开发者在开源工作中面临的现实问题，也可以通过社区进行整理汇总，形成更高屋建瓴的行业洞察，再通过社区力量，与整个社会更好地协调、解决问题。享受开源模型带来的便利的同时，硅基智能也将其拥有的数字人技术贡献出来，供其他开发者使用，同时获得使用者的反馈意见，形成正向循环。

博客

刚刚，ChatGPT的深度研究可以连接GitHub了！网友：这是真·RAG

05-09

673

而除了像刚才的操作方式之外，你也可以进入ChatGPT设置，选择“已连接应用”（Connected apps），找到“连接器”（Connectors）选项，然后点击GitHub旁边的“连接”按钮。在使用方面，正如我们刚才所展示的，当你把GitHub和深度研究连接后，ChatGPT就能直接从你的代码库（包括代码、README文件和其他文档）中获取实时数据，并即时分析处理。如果之后需要调整该连接器能访问的代码库范围，只需在设置中点击GitHub旁边的齿轮图标，即可跳转至GitHub连接器的配置页面。

博客

AI视频的DeepSeek时刻！开源13B模型生成提速30倍，5090跑出好莱坞特效

05-08

为此提出改进的Reconstruction GAN，判别器同时接收原始样本和重建样本，通过判断哪个是原始的、哪个是重建的，简化了判别器的任务，提高了其引导生成器的能力，使生成的视频在保持与原始样本相似性的同时，能更有效地平衡保真度和感知质量。训练时通过调整原始视频大小，使输入样本包含大致相同数量的token，并采用随机丢弃token的策略，避免复杂的token填充或打包操作，保持数据多样性。LTXV-13B拥有超130亿个参数，即使在快速复杂的场景，也能提供更流畅的运动、更少的伪影和更清晰的视觉效果。

博客

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

05-08

601

总的来说，就是直接把PPO或者Reinforce++用在奖励模型训练上，会因为损失计算和优势归一化这两个环节内在的问题，在高效率训练或者训练后期特定数据分布下，引发数值不稳定，最终影响模型效果。更有趣的是，他们发现通过在推理时多做几次计算（比如采样5次或15次，然后投票选最多的答案），R1-Reward的性能还能进一步大幅提升，这说明RL方法在优化奖励模型方面潜力巨大。更有意思的是，他们还试了另一种策略叫“Any Correct”，就是只要模型输出的K次结果里有一次是正确的，就算对。

博客

爆火智能体再进化，终端成为关键词：2026年端侧AI能力至少涨3倍

05-08

619

它可以结合用户意图和先验知识，将复杂任务分解为子任务，并派发给相应的领域智能体，然后自主编排执行顺序，规划执行步骤，基于智能体互联协议调用跨生态工具来主动执行任务，并通过自我学习不断演进和升级。能力则能够调用跨设备、跨生态的本地的个人和企业知识库，通过知识积累、经验反思、实时学习和高效反馈，建立并维持端边云一体的可追溯、可关联的。届时，面向超级智能体，联想将完成对端侧AI计算能力的重新定义。梳理来看，联想这波新发布，意在通过超级智能体矩阵，全面覆盖个人、企业和城市级别的AI应用场景，重塑生产力范式。

博客

谷歌Gemini火力全开！实测：原生图像生成新升级确实强

05-08

195

更有意思的是，搭配Gemini 2.0 Flash食用，还能让模型自己构思自己生图。首先，在谷歌提供的demo中，我们看到了它能很好地将完全不同的元素自然融合在一起。同时可以看到，在秒速生图过程中，它还会在接收用户指令后给出自己的理解。我们先随意画了一个太阳的草图，要求它为太阳加上笑脸，结果立马就搞定了。还能实时编辑图像，比如刚说完给图中人物加上眼镜，图片立马就生成好了。与此同时，也有人将它和近期非常火爆的GPT-4o生图进行了对比，第一次扩图，它只前进了一小步，完成了更多的人物上半身复原工作。

大模型应用新战场：揭秘终端侧AI竞争关键｜智在终端

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI

△Midjourney生成

AI应用背后，大家都在聚焦哪些研究？

△Qualcomm Research发布于YouTube

鱼羊发自凹非寺
量子位 | 公众号 QbitAI