关于AI你最关心什么？技术专家团亲自答（含往期真人纯享版）

QbitAl

于 2024-08-16 13:05:17 发布

阅读量126

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247744165&idx=2&sn=0ecb8a8c0fb9f3d7912d0aa2bdad9b83&chksm=e9403ba3d726ba4c7bff77521fc28ad8b7e26e66ed8fb2231104d946413159a140bdbfa02aec&scene=126&sessionid=0

版权

允中发自凹非寺
量子位 | 公众号 QbitAI

2022年底，OpenAI的大模型ChatGPT正式问世，并在2023年引领全球“大模型热。

谷歌、微软在内全球科技巨头相继推出各自的人工智能大模型，中国企业也掀起了“百模大战”，国产大模型频频亮相、加速迭代。大模型的快速发展助力产业创新升级，大模型商业化现状如何，新入局的企业，如何选择大模型赛道？

2024年是端侧智能的爆发元年吗？模型训练和推理又有什么新的技术进展？

为了帮助大家更好了解AI技术发展动态，为用户提供解决实际问题的思路和方法，阿里云特别推出的首档AI领域问答栏目——【AI问爱答】。每期栏目都由阿里云的AI专家答疑团针对网友提出的各类关于AI的问题做解答，任何关于AI产品使用，大模型应用落地等问题，均可以向他们提问。

截至目前已有5位AI专家做客栏目，累计回答了40个问题，涵盖了从大模型商业化落地挑战，端侧智能的现状，模型训练和模型推理的技术路线，快速上手智能编码等多个方面。

4分钟精华版浅浅回顾一下~

接下来，如果你对开源大模型的最新技术进展、视频生成上的具体问题、数字人技术落地、GPU算力等有问题，我们邀请了…

薄列峰——阿里巴巴通义实验室应用视觉实验室负责人

阿里巴巴通义实验室应用视觉团队负责人，曾任亚马逊首席科学家，华盛顿大学计算机科学与工程学院合聘教授。研究范围覆盖机器学习，深度学习，计算机视觉，自然语言处理，语音等多个领域。

周文猛——阿里巴巴通义实验室研发总监

ModelScope魔搭开源社区和DashScope灵积模型服务平台模型技术负责人，意在打造简单易用的sdk和api接口，方便开发者进行大模型定制部署、应用搭建。曾负责阿里云机器学习平台PAI上算法框架，支持搜索推荐等核心业务，服务多个BU核心业务，在多个比赛榜单取得前三的成绩，在EMNLP、CVPR、IJCAI多篇论文。

更有神秘嘉宾届时揭晓，您有什么问题希望专家团解答？欢迎来提问！

如何参与？

1、点击阅读全文访问栏目官网“开始提问”；
2、关注阿里云云栖号获取栏目最新动态；
3、也可以直接评论区留言提问

我们将通过邮件联系提问者送出好礼，同时被栏目组选中回答的问题提出者还将获得额外惊喜！

前期内容节选

Q：传统企业和新入局的企业，如何选择大模型赛道？
A：怎么样在一个水涨船高的阶段，做好那艘船，而不是要做好那座山，因为水涨高了之后可能山会被淹没，所以怎么样用好模型可能是最重要的事情，这是企业和新入局的玩家要重点思考的。一是做好业务的梳理，做好知识的封装，用Agent去体现。还需要清楚业务的应用场景到底是实时链路还是离线链路，这会影响到模型的选择和Agent的搭建。

Q：如何保持AIGC内容的原创性、个性化，避免千篇一律的产出?
A：电商目前应用到的大模型可能主要是在两个方向。一个是偏语言模型的使用，如对商品做打标，做评论的提取等等。另外就是生成内容后直接通过渠道分发，比如以富媒体方式发出。用AIGC生成内容上，最重要一件事情其实就是精度。其实所有的内容你希望它不要变的就不要去变，你希望它变的尽可能变化足够大，可控式生成是我们在努力的一个方向。

Q: AI生成视频有哪些技术难点呢？有哪些商业化可能性？
A：视频生成我觉得可以分成两种，一种是类似于文生视频，基于语义去生成视频，还有一种是对视频内容做编辑。我们观察到今天对于视频编辑的需求特别大，尤其是以人的身体面部表情的编辑为最主要的一种尝试方向。基于人的肢体的动作驱动一张图片，还有一个是针对人脸，驱动他的整个面部表情，甚至包括上半身的手势，我觉得第二条技术路线对于视频编辑控制方向有非常大的商业化可能性。所以这块我们会做的多一些，我相信可以跟文生视频结合在一起。

Q:目前大模型落地到端上最大的挑战是哪些？
A:目前端上的模型落地，面临的一个非常大的挑战点是在于面临着像性能，资源、功耗多方面的一个平衡。不管手机也好，PC也好，甚至车也好，算力受限，内存有限，对精度的要求不比云上要低，场景也复杂，选用大尺寸的模型，内存和推理速度没办法满足，选用小尺寸模型，整个效果会变得比较差。现在所谓的小尺寸模型,本质上来讲还是一个很大的一个模型。它的资源占用、推理性能都面临非常大的瓶颈。

Q:目前模型推理，最新的技术方向是怎样的，有哪些突破点？
A:模型部署和推理性能挑战的来源当然首先是模型规模了。模型规模和上下文的规模还在持续增长，并且远远高于硬件算力、显存宽大的增长速度的，所以这对于模型部署的权重，上下文压缩，计算加速，基于分布式架构的可扩展性，都提出了非常高的要求。今天大语言模型通常具备非常全面的理解推理和生成能力，甚至同一个模型可以在很多场景中解决不同领域的问题。对于模型部署和推理计算来说，多样的场景就会带来很多样的性能需求和计算特性，就需要模型推理引擎和模型部署平台具备非常全面的能力。

Q:模型训练需要昂贵的成本支撑，那么在训练或微调过程中，如何提升训练性能，以节约训练成本？
A:首先要确定优化的目标，一般来说优化的目标就是训练一批token的总时间，具体的指标上就是token/s。
token/s具体到硬件上，其实就是对硬件资源的有效的利用率，也就是我们常说的指标MFU。计算量确定了，怎么样去做这个优化呢？要根据各个硬件单元的吞吐来理论预估模型训练的瓶颈，以及性能优化的空间，具体可以从计算、通信和显存三个大方向进行入手。

在计算上，可以首先把计算的算子大约划分为访存密集型的算子和计算密集型算子。访存密集型算子的计算时间是跟访存时间相关的，那可以从访存的量和访存的带宽来理论预估这个算子的执行时间。计算密集型算子的计算时间是它的算力峰值和计算量来做计算时间的预估，可以对比实际的执行时间来评估各个算子的占比和优化空间。
在显存上，要根据模型的结构以及它中间的activation大小，来理论预估这个模型所占用的显存大小，并且要结合所使用的分布式策略、offloading策略以及其他显存优化策略。

在通信上，需要结合分布式策略所对应的算子，它的理论通信带宽是不一样的。它在机内和机间的执行速度，也要根据机内和机间带宽来进行理论预估。在这样预估通信时间之后，就可以根据这个计算时间、计算的算子和通信的算子之间的依赖关系，来预估一下这个算子之间是否能够overlap起来。如果没有掩盖好的话，我们要预估一下通信没有被掩盖部分的占比，这能够帮助我们去改善分布式策略。

有了这些瓶颈点定位、优化空间，以及评估数据后，我们就可以从具体的瓶颈点入手。

Q: AI程序员是什么样的产品形态？跟通义灵码的关系是什么？
A:人机交互的模式分为三个阶段，第一个阶段是人机配合，以人为主，机器为辅，我们把它叫做Copilot模式；接下来会进入到Agent模式，由单个 Agent自主完成一个小任务，比如写一个测试用例；最后是多Agent协同模式，可以完成非常复杂的一件事。
AI程序员是基于多Agent协同架构下产生的产品，人机交互模式已经发生了质变，变成了机器为主，人为辅。人在这个过程中更多是提出需求，及时对AI 程序的运行做纠偏，以及去校验它最终生成的结果，编程的生产力会有大幅度的提升，发生质变。通义灵码更多是第一个阶段，就是Copilot的模式，真正到了 Multi-Agent 或者机器为主时，产品形态一定是AI程序员。

Q:市面上智能编码工具非常多，开发者选择时有什么标准吗？
A:从我们观察来看，程序员首先对代码助手IDE插件的第一要求就是准，采纳率一定得高；第二个是代码生成要足够的快，不能太卡顿；三是能否跟企业内部的规范或个人开发习惯进行结合；最后还需考虑安全性。

Q:代码的RAG知识库是什么功能？应该怎么管理才能提升代码编写的准确性？
A:检索增强是我们最近针对企业版推出的重要功能。这里面包括两种，第一个是代码补全的 RAG，主要是在代码续写时进行辅助，它可以模仿我们原来写好的业务逻辑去生成，或者说按照原来的自研组件库或者资源框架的方式去进行服务生成，或者按照原来的API调用范式去生成。

在编写代码的时候，它自动去企业的知识库召回了相似的代码。第二种是企业的知识问答，可以将企业里面研发文档，或者API定义的文档上传，只需要通过#team docs，就可以让大模型去针对问题去实时到企业知识库去进行查找，联合生成。

Q:如何通过智能编码助手辅助开发人员进行代码走读，快速了解代码？
A:大量开发者是通过代码解释功能，快速了解整个代码的含义。除了简单的代码解释，圈选代码就可以完成。另外还可以通过@workspace功能，让大模型对整个库进行走读，然后给出相应的解释，我们可以让它定位到某个文件，甚至某个类或者是某个目录，让它去进行走读，来帮助我们快速了解。