技术最牛逼的阿里，又回来了！

最新推荐文章于 2024-09-21 16:40:59 发布

IT界那些事儿

最新推荐文章于 2024-09-21 16:40:59 发布

阅读量808

点赞数

文章标签：程序人生人工智能

原文链接：https://mp.weixin.qq.com/s/88z1VqTiqCyLJRWIzqJjkw

版权

距离ChatGPT发布22个月，国内AI语境下的互联网技术基座究竟该做哪些？支撑AI原生应用的技术天花板有多高？AI的行业风口会吹向哪里？

9月19日，一年一度的阿里云栖大会拉开帷幕，阿里现任掌舵者吴泳铭、CTO周靖人携手大模型领域当红炸子鸡月之暗面CEO杨植麟、小鹏汽车CEO何小鹏等一众明星企业创始人给业界带来了一场久违的国产自豪感。

不管是能实时观看秒回答的阿里版GPT-4o、号称性能超越 Llama 405B的新一代的开源模型旗舰版 Qwen2.5-72B，还是一系列涵盖服务器、网络、存储、AI平台、数据湖等硬科技的AI Infra，还是通义万相、通义灵码、阅读助手、AI翻译等办公生活两不误的AI应用，都不得不让我们感叹：那个10年前国内技术最牛逼的阿里，又回来了！

吴泳铭：一场“AI想象力”的开幕式

大会第一天，阿里现任掌舵者吴泳铭在《云与AI的创见》主论坛上，提及AI的发展变革，心情十分澎湃，自去年发出“用户为先、AI驱动”的重大战略调整的全员信已满一年之际，他激动地分享了3个切实的实践感受。

首先，吴泳铭认为，过去22个月，AI发展速度超过任何历史时期，但依然处于AGI变革的早期。在这个阶段，推理成本是应用爆发的关键问题，阿里未来会努力继续推动推理成本降低。过去一年以来，通义千问API在阿里云百炼上的调用价格下降了97%，百万tokens调用花费最低已经降到5毛钱，阿里云会努力地把成本继续降下去。”

第二，生成式AI最大的想象力不在手机屏幕做一两个新的超级App，而是渗透数字世界、接管数字世界，并改变物理世界。怎么理解？

吴泳铭提出，一方面，与互联网不同，生成式AI是通过给生产力供给增加智能，从而为世界创造更大的内在价值。这种价值创造，可能是移动互联网连接价值的十倍、几十倍。另一方面，生成式AI将逐渐渗透数字世界，并接管数字世界，物理世界的大部分事物都会具备AI能力，形成下一代的全新产品，并与云端AI驱动的数字世界连接产生协同效应。

例如汽车行业的自动驾驶，在使用AI模型后已经发生了发生的巨大变化，可以预测机器人将是下一个迎来巨变的行业。他认为，未来，所有能移动的物体都会变成智能机器人，它可以是工厂里的机械臂、工地里的起重机、仓库里的搬运工、救火现场的消防员、家庭里的宠物狗。现在每个城市家庭里有一辆车，未来每个家庭可能会有两三个机器人。

最后一点，AI计算正在加速演进成为整个计算体系的主导，未来几乎所有软硬件都会具备推理能力，驱动新算力需求渗透。未来几乎所有软硬件的计算内核将会变成GPU AI算力为主，CPU传统计算算力为辅助的计算模式。“我们看到在新增的算力市场和算力需求上，超过50%以上的新需求，都由AI驱动，且新需求已经超过50%，已占据主导地位，这一趋势还会持续的扩大。”

大模型时代的阿里，都在做什么

前不久，阿里迎来了25周年，马云那句“阿里从来不是被保护出来的公司，阿里相信市场的力量和创新的价值”言犹在耳，紧接着这次云栖大会接下来的全新的AI版阿里云技术让人看罢直呼过瘾：那个让人骄傲的阿里，又回来了！

下午一点左右，阿里云 CTO 周靖人信步上台，从AI模型与应用及面向AI的基础设施两个方面，详细介绍了阿里云近两年来面向AI所攻克的先进“黑科技”。全程一个小时，信息密度极其之高，简直目不暇接，实在是爱了。

在AI时代，云计算发生了全栈全系列的技术革命，这场革命中，而阿里云提出的“模型即服务”已经成为了业界的标准。

阿里版的AI Infra，刀刀要害

不管大家愿不愿意，GPU时代已经来临，对此，周靖人直接甩出一个自研的Infra大杀器：磐久服务器。

磐久的厉害之处有三点：支持多种异构芯片，主流、国产一应支持，关键之处还在架构上做了CPU和GPU的分离，以更好地实现算力匹配，芯片适配速度提升1倍；同时，为了能够提供更多算力，磐久的一个服务器可以承载8颗甚至16颗GPU卡，远远超过行业水平；此外，针对高密度的信息计算带来的散热问题和GPU故障问题，“磐久”服务器正如其名，非常耐造，通过优化的散热布局，有效满载GPU温度降低3度，而基于AI算法的GPU故障预测，准确率达92%。

服务器之外，网络成为影响大模型训练和用户体验的一大难题。周靖人介绍阿里云高性能网络架构HPN7.0。作为新型智算集群架构，可稳定链接超过10万个GPU，数据中心就可以化身为一台超级计算机。周靖人还介绍到，HPN7.0通过前后端网络分离的方式，后端可以提供3.2T的带宽，可以提供极致的并行计算，此外阿里还自研了一系列协议，比如Solar RDMA协议、HPCC协议等，端到端的通信性能也做了翻倍。

另外，文件存储系统CPFS也是一个亮点，它把面向AI的存储和面向对象的存储进行打通，为AI智算提供更佳的存储能力,这样就可以保证多账号多模型的同时训练与推理。

容器方面，对于去年推出的容器计算服务ACS，也进行了产品升级，将支持动态细粒度热调整，并能处理更大的并发数。

模型训练方面，阿里云主推的PAI平台将为模型提供多种能力，比如模型、硬件、并行方式的组合多样；可以更好地优化模型的架构，做到自动化的并行加速；同时PAI的模型推理功能，也将优化大模型服务，提高效率和优化成本。

除了算力，在数据处理方面，阿里云也相应推出了OpenLake湖仓一体化的平台，将在未来两天的讲演中有更加详细的说明。

此外，周靖人表示，在AI时代，安全有了新的含义。为此，阿里云提供了安全中心、数字水印等解决方案，解决语料安全、数据安全、模型安全评测等一系列安全问题。

不得不说，全栈AI Infra，性能、稳定、效率、伸缩、安全，可谓面面俱到，面面严谨，一贯是阿里的风格。

通义家族全新亮相：开源生态已经全球第二

上一部分的AI Infra还意犹未尽，结果下一PART更是让现场人掌声不断。

在模型与应用部分，周靖人持续丢出大招。Qwen2.5、旗舰版模型Qwen-Max（阿里版GPT-4o）、通义万相、Qwen-Audio、Qwen-Math等连环引燃现场。通义家族彻底在云栖上出圈了！

周靖人介绍，通过通义家族全球领先的模型能力，可以充分发挥AI能力。同时，阿里云的百炼平台，能够将模型的调用和企业的数据有机结合起来。

2.1 通义千问大语言模型家族

通义千问开源模型累计下载量已突破 4000 万，成为开源生态的全球第二，仅次于Llama。

Qwen2.5首次达到了18万亿的token，模型的输入和输出都支持了128K，同时数学和代码能力大幅提升。此外，鉴于千问在全球广泛的影响力，此次Qwen2.5支持中英文在内的29种语言。

Qwen2.5开源了7个尺寸，0.5B、1.5B、3B、7B、14B、32B、72B，它们在同等参数赛道都创造了业界最佳成绩，型号设定充分考虑下游场景的不同需求。Qwen2.5开源了一系列小模型，如14B、7B模型，方便企业将模型集成到业务当中，降低成本。而首次推出的3B模型，将有望推动端侧应用的开发，同时和云上的模型应用形成协同。可谓全尺寸、全场景、多态，一应俱全。

周靖人透露，旗舰版模型Qwen-Max,性能接近GPT-4o。通义官网和通义APP的后台模型均已切换为Qwen-Max，继续免费为所有用户提供服务。

在多模态的维度，通义千问也取得了一系列进展。

视觉维度上，视觉语言模型Qwen-VL在之前的图片理解上，新增了对视频的理解和推理能力，甚至超越了GPT-4o的水平，支持长达20分钟以上长视频理解，可以调用手机和设备的视觉智能体，支持多种语言。

而音频模型Qwen-Audio，则融合了语音识别和语音理解，无须通过ASR模块，实现了端到端的大模型，大大降低延迟。

同时，在专有能力上，通义推出Qwen-Math并开源。据阿里云官方透露，该模型超过了一众开源模型及GPT-4o的数学能力。

2.2 通义万相

与千问模型家族不同，通义万相专注图像和视频的生成。

周靖人宣布，通义万相的文生图的能力得到了大幅提升，框架升级到Diffusion Transformer，具备强扩展性和灵活性。

同时，通义万相正式推出了文生视频能力，在技术上进行升级和优化，可生成20s原生的1080p视频，同时支持各种各样的视频风格。该功能目前已在官网上公开试用。

讲个小插曲，今晚6点左右，阿里会推出飞天音乐节的现场视频《江雪》，大家可以留意观看。

2.3 多项模型应用

通义灵码

通义灵码插件下载破500万，在服务开发者的同时，灵码提供企业级的支持，能有效理解本地的代码库，同时保障了数据安全。

在此次升级中，灵码进一步向智能体方向进化——可以理解需求、拆解任务并尝试进行代码的编写，实现AI程序员的能力。

通义听悟

通亿听悟提供实时的对话记录功能，能完成语音转文字等任务。目前，通义听悟已经集成在通义APP和Web端中，旨在帮助用户提高学习和工作的效率。

通义PPT创作

通义也跟进了打工人喜爱的AI PPT功能。通义的PPT创作支持了丰富的类型输入，长文本、音视频都可以，值得一提的是支持了1000万字的文档，是同类产品望尘莫及的长度了！

此外，周靖人提到，通义PPT创作提供了丰富的模板，使得呈现效果美观且专业。

通义AI翻译助手

通义的翻译助手也进行了有意思的更新。除了在基础功能上，搭载的端到端模型有效降低延迟，支持多种语言翻译之外。通义的AI翻译助手还提供旅行模式和会议模式，面向高频场景提供更加适合的翻译能力，这种巧思必须给产品经理加个鸡腿。

VideoChat 视频通话

在多模态的各个方面大秀肌肉后，小编心想这不就是GPT-4o的各种能力都具备了？果不其然！周靖人宣布了，通义版GPT-4o——VideoChat视频通话功能上线了，大模型能听能看能说，实时的理解和交互再也不是问题。

在千问家族强大的AI基础能力之上，阿里云的百炼大模型服务平台的出现则为进一步丰富模型应用生态添砖加瓦。大模型服务平台联通了大模型进入企业的最后五公里，让通用模型+垂直模型矩阵的实现更容易了！

这里不得不提，除了市面上通常看到的工作流、智能体编排工具，阿里团队还提供了精细化的运营工具，辅助观测和优化引用效果，不仅可以覆盖大模型应用各个组件的执行过程，还能让全部过程可观测、可分析、可评价、可干预，独立开发者和企业都可以无后顾之忧。

在大会上，周靖人宣布两款推荐模型 Qwen-Plus 及 Qwen-Turbo 再次降价，降价幅度超过85% ，做到了业界最低，并提供免费试用。周靖人表示，希望足够低的价格能吸引更多开发者入局大模型，这样才能进一步激活大模型创作者的活力，推动AI领域的创新。

云栖大会的三场圆桌：AI明星谈大模型、自动驾驶、具身智能

这还没完，三场圆桌Panel同样精彩。三场重磅圆桌，分别围绕着吴泳铭演讲的重点领域：大模型、自动驾驶、机器人展开。在圆桌的讨论中，杨植麟、姜大昕、何小鹏等重磅AI大咖纷纷发表自己的观点以及对AI未来的预测，观点的碰撞让人直呼过瘾！

大模型

阶跃智能的创始人姜大昕：AI没有凉，仍处于一个加速发展期

姜大昕认为AI在广泛领域取得了突破，正在一个加速发展的过程中。从数量的角度来看，每个月都会有新的模型、新的产品、新的应用涌现出来。而从质量上看，GPT-4o、特斯拉FSD V12、OpenAI o1的发布具有重要的价值和意义。

月之暗面创始人杨植麟：o1拉高了大模型的上限，创业公司迎来新机会

杨植麟表示，OpenAI o1发布确实意义很大，他提到“AI的历史上，唯一有效的就是Scaling law”。因此，从GPT1到GPT4是确定性的提升，但o1并不是完全确定性的，它提升了AI的上限，初步解决了进一步Scaling的问题。而且这个方法在一个初期阶段，因此，能对很多产业格局会产生影响，会产生很多新的创业机会。

至于对产品的影响，杨植麟表示，AI产品更多是靠技术驱动，现在的技术发展，带来了探索PMF的机会。虽然o1的思维链会使用户获得相应的速度变慢，但长期来看增量价值将大于体验损失。

此外当被问及哪类初创企业更容易被融到钱时，杨植麟坦言：这跟AI本身关系不大。首先产品本身满足市场需求，数据指标比如产品的留存是要关注别的，此外要看市场规模一定是有增量的。他认为，prompt engineering未来可能就不需要了，是一个越来越小的市场。

生数科技首席科学家朱军：未来一年半，AI进入L3阶段完全有可能

朱军提到，在AI的L1-L5的级别中，o1突破了L1阶段，向追求进行更复杂的推理和决策制定能力的L2阶段转变。展望未来的18个月，朱军认为L3即AI智能体的实现是值得期待的。

下半年，生数科技也会为用户们提供更加可控的视频生成功能。

自动驾驶

小鹏汽车董事长、CEO何小鹏：年产量100万AI车，才配留在牌桌上

何小鹏表示，大模型可分为数字世界、物理世界和仿真世界三类，这三类模型将在未来相互融合。不过，从硬件角度看，这一融合过程的速度将较为缓慢。相较于数字世界的快速变化，物理世界的变革步伐将更为稳重。

谈及特斯拉 FSD 入华对行业的影响时，何小鹏表示，“我觉得我们需要不一样的很好的技术来冲击市场，能够让我们看到市场的变化，我觉得未来在牌桌上的玩家会比较少。”至于判断标准，何小鹏认为:谁能做到年产量100万台纯AI车，谁就有资格。

他指出，端到端的模型下限能力有望在明年快速提高，一旦提高后，不用2年时间，在全球范围内就可以做到超越L4标准的能力。据悉，何小鹏驾驶“全球首款AI汽车”P7+亮相2024云栖大会，这款车搭载了业内领先的端到端大模型。

上图：“全球首款AI汽车”P7

机器人/具身智能

北大-银河通用具身智能联合实验室主任王鹤：通用和零代码是两大方向

王鹤指出，人形机器人的技术含金量可以总结为两个方面：第一，它的泛化性到底有多强，是不是真正能通向未来的通用。第二，它能不能跟人之间用自然语言来沟通，实现零代码的部署。

逐际动力创始人张巍：“双腿”对人性机器人至关重要

张巍提到，“我觉得人类机器人之所以是一个新的物种，它不是一个传统机械臂公司的延续，它的本质就是要长出两条腿来，我觉得腿是能是机器人具有通用能力的一个基础。那看腿要看什么呢？主要看两点，一个就是腿他有没有完成他本能的一些本职的工作，就是地形的泛化能力。第二点也很重要，就是看他能不能支撑双臂去完成全身协同的这样一个通用的操作，这也是腿存在的一个重要的价值。”