AI产品的架构（分四层）

果汁华

于 2025-03-31 10:08:26 发布

阅读量1.5k

点赞数 8

文章标签：人工智能

本文链接：https://blog.csdn.net/u011510825/article/details/146799217

版权

架构分层

在我看来，每个AI产品都可以分为４层结构

第一层：数据、算力、算法层。

第二层：模型层。

第三层：应用层。

第四层：用户层。

第一层：数据、算力、算法层

这一层是 AI 产品的基座，相当于人在成长过程中所接受的教育体系，包括丰富的学习资源、教学硬件和优秀的老师，这三者分别对应数据、算力、和算法。

１、数据

这个概念很好理解。数据按照内容分两类，一类是用于建设 AI 基础能力的海量数据，就像学校的图书馆资源，对所有人来说都是一样的；一类是个性化数据，就像你在图书馆之外，总有自己独特的学习资料，比如学长的学习笔记，你感兴趣的课外读物。

第一类数据由大模型厂商决定，需要专门的数据供应方和大模型厂商来做，和普通的 AI 产品经理关系不大。但第二类数据就是 AI 产品经理要来“精挑细选”了。

２、算力

这是支撑 AI 产品的硬件环境，它就像是一个学校里的教学设备、教室、实验室等等。对于 AI 来说，算力就是计算时使用的芯片。当然，你不需要了解芯片的制作工艺、使用效率。但作为 AI 产品经理，你需要了解三点。

１）如何评估一个 AI 产品对算力的需求？

２）使用这些算力要花多少钱？

３）使用哪些方法可以降低成本？

这些能力能帮助你从 ROI 角度评估产品的商业可行性。比如我们现在经常使用的免费 AI 搜索，如果不做任何成本调优，一次搜索都要花掉几块钱。那假如一天发起十万次搜索，仅仅算力成本就要消耗几十万块。想要长期发展，就必须在商业收益和成本上做好规划

３、算法

如果说数据和算力都有一个具象的表现，那么算法就是 AI 背后最抽象的计算机原理。好比学校里的老师，我们并不是看这个老师长得高矮胖瘦，而是要看 Ta 的教学方法，这个方法相比教学设备、图书资源是很抽象的，也是比较难的部分。

对于 AI 产品经理来说，了解算法有两大好处。一是能帮助我们理解技术边界，鉴定什么问题 AI 能解决，什么不能解决。二是能帮我们与算法工程师、开发工程师更好地合作，换个黑话的说法就是“避免被他们忽悠了”。

第二层：模型层

基座大模型

垂直领域模型

场景模型

有了上一层的学校图书馆、教学场地和优秀老师，接下来就是花时间培育出优秀的“学生”了。

模型层细分可以分为三层，分别对应着不同水平的学生，我们由下至上来看。

Level 0：基座大模型，相当于本科生，具备通用能力。
Level 1：垂直领域模型，相当于在本科毕业后继续攻读的研究生，具备一定专业领域的知识。
Level 2：场景模型，相当于本科或研究生毕业后，经过工作经验积累，或者公司的专项培训，具备某些业务专家的能力。

在一个 AI 产品中，你可以仅选择其中某个层级的模型，也可以根据需要选择多个模型。就像一个公司既有本科生，又会有研究生，也会有业务专家。

作为 AI 产品经理，我们就需要像公司的 HR 一样，起码具备两项能力。

１）如何挑选合适的员工，也就是为产品场景找到合适的基座大模型或者领域模型。

２）如何进行公司内部的专项培训，也就是训练出一个场景模型，这里需要理解模型微调原理。

好了，我们总结下第一层和第二层需要掌握的知识点，以及掌握这些知识点后你可以具备的能力。这部分的细节我们会在后续课程中详细展开。

当你找到合适的“人员”，接下来就是要调动这些资源动手做东西啦，也就到了产品的应用层。

这里留一个小问题，什么是模型呢？

第三层：应用层

这里的应用层更像是产品拆开包装后，你所看到的各个元器件之间是怎么组织、协调的，也是产品经理和应用开发者工作最繁重的地方。

如果说前面的两层主要是理论学习，那么应用层拼的就是实战学习。我会在后续的课程中以亲身实践案例来讲述。在这里，你需要掌握两大核心技术，提示词工程和 Agent 设计。

提示词工程

这里的提示词工程并非你常听到的和 ChatGPT 对话的提示词撰写技巧，而是面向产品经理的提示词工程技术。我用一个比喻来说明二者的不同。

如果你是 ChatGPT 的用户，写提示词就像玩盲盒。你对结果有所期待，但不要求确定。
如果你是 AI 产品经理，写提示词就像打靶。你是首先有一个确定的目标，再开始写提示词，直到提示词能打中靶心为止。

比如在客服场景中，我们需要设计提示词，让 AI 判断对话中，用户的情绪是正面、中性还是负面。

当用户输入“今天别给我送快递，我不方便收货，如果可以明天送”时，输出立场为中性。
当用户输入“包包内部结构不好，找东西不方便”时，输出立场为“负面”。

在这两个例子中，都有“不方便”这个词，但输出的立场却不一样。那么我们在写提示词的时候，就必须做多次试验，保证相似的场景能有严格的输出，像打靶一样每次都能打到靶心

为了达到这个目标，你的提示词可能是这样的：

你看，这个提示词里貌似有很多“废话”，但对于一个模型来说是必要的。这个例子里的提示词工程用专业名词来说叫 Hard prompting（硬提示）工程，就是把提示词当做输入项直接给到模型，输出期待的答案。

既然有 Hard prompting，那就会有 Soft prompting（软提示），它还有另外一个名字，叫 Prompt tuning，提示词微调工程。简单来说，就是用微调模型的方法让模型学习到某种模式，模型学会之后，就不用再像 Hard prompting 那样输入很长的提示词了。

比如在上面的例子中我们会搭配很多组这样的数据对来微调模型。

在模型微调结束后，我们就只需要以下几句话就可以得到我们期待的结果，这个长度就比 Hard prompting 的“废话”少多了。

打个比方吧，Hard prompting 就好像你对一个刚入职的新同事给他安排任务，需要很详细地告诉 ta 要做什么，为什么要做，如何做，具体步骤，而且要给给他举例说明。而 Soft prompting 就像是培养一个熟练工，当新同事适应一段时间后，你不再需要那么详细，可能只需要一句话，他就能体会你的意思。这也意味着你对他成功地完成了 Soft prompting 工程。

回到产品本身，就是在产品实验阶段通过 Hard prompting 进行验证，上线得到真实数据验证成功后，通过 Soft prompting 微调那些在模型里形成的程序性记忆。我们在后续的实战案例 11-13 节中会详细讲述。

我们把上述提示词工程总结为一个提示词的生命周期，就像下面这张图展示的内容。

Agent 设计

如果说提示词工程是用来影响模型的思考，那么 Agent 则在思考的基础之上增加了行动能力。

仅使用提示词工程的 AI 产品只会聊天，而结合 Agent 设计的 AI 产品就既能聊天，还能做事情，不会沦为思想上的巨人，行动上的矮子。

Agent 翻译为中文叫智能体，直译过来叫“代理”，早在 1986 年，图灵奖得主 Marvin Minsky 在《The Society of Mind》一书中就提到了 Agent 的概念。那为什么现在又重新被推上历史舞台了呢？

因为 Agent 实际上有五个递进的等级，而当下正处于从第二级向第三级跨越的阶段。

我们依次说下这五个等级。

第一级：基于规则，能使用工具的智能体。
第二级：基于模仿学习、强化学习，能使用工具且能做决策、推理的智能体。
第三级：基于大语言模型，在第二级能力之上，增加了记忆、反思能力。
第四级：基于大语言模型，在第三级能力之上，增加了自主学习能力。
第五级：基于大语言模型，在第四级能力之上，增加了情感、智能体的社会协同能力。

在这一轮，为了让 Agent 能跨向第三级，解锁更多使用场景，AI 产品经理们需要为 Agent 构建出四个能力。

工具使用能力
记忆能力
反思能力
规划决策能力

我举例来说明这几项能力的定义。比如我写这节课这天正好是父亲节，我想做一张父亲节卡片。

【工具使用能力】我告诉 ChatGPT：“画一张父亲节主题的卡片”。Ta 会调用 AI 画图工具 DALL.E-3 绘出一张卡片，这是工具使用能力。
【记忆能力】可我发现这张卡片上的主题词是英文字母，这可不行，我爸看不懂英语，于是我告诉 Ta“把卡片上的英文换成中文”，ChatGPT 会理解这句话，并再次调用 DALL.E-3 绘出一张卡片。这时你发现 ChatGPT 其实记住了我这里说的“卡片”指的就是第一次对话生成的卡片，这就是记忆能力。
【反思能力】然后，我再问 ChatGPT “如果你是一位 60 岁的男性，你会喜欢这样的卡片吗？”，好了，Ta 就会读取这张照片，并以 60 岁男性的角色评判这张图片，这就具备了反思能力。
【规划能力】最后，我完成了父亲节卡片。下次如果遇到母亲节，我问 ChatGPT“如何做一张母亲节的卡片”，那么 ChatGPT 就会自己建议：第一步用 DALL.E 画一张照片，第二步以母亲的身份来评价这张照片，直到满意为止。这就具备了规划能力。

通过应用层的这两个核心技术，我们就可以把产品的核心功能构建起来。接下来我们的产品就要包装一下，正式向用户见面了。我们来到了 AI 产品的第四层。

第四层：用户层

这一层是很多 AI 产品经理比较困惑的地方，我之前在做互联网产品的时候，产品经理的一大能力就是画原型图，而现在的 AI 产品，似乎大部分是一个用户对话界面，AI 产品经理画原型图再也不用画那种长达十几页的用户跳转旅程。

然而这种对话界面绝对不是、也不应该成为唯一的形态。因为人类的信息有 80% 是从视觉中获得的，而这 80% 的视觉绝不是只用来看文字的。我在这里举个以画布作为用户层的例子供大家参考。

想象一下，你和一位同事在白板前讨论问题，而这位同事就是一个智能体。

首先你说出了一个想法，“咱们要调研一下关于具身机器人的东东”。然后 Ta 在画布迅速画出一个脑图。
可是你发现，这些脑图用一个维恩图来表示会更好，因为其中有些项目是有重叠、关联作用的，维恩图更适合表达这种关系，于是你告诉“同事”，“我觉得用维恩图表达更好”。
于是 Ta 迅速改成了维恩图的方式。你们两个如此反复，
最终通过这种互动方式做出来一个调研思路。
最后 Agent 根据这个思路通过搜索工具总结出一份完整的报告。

你瞧，这种方式就让人机交互变得更加自然，这也是这一轮 AI 给产品形态带来的革命性改变。也许你已经习惯了我们在 App 上点来点去，但仔细想想，在一个偌大的屏幕上，有时候可能你只关注某个角落里的一个按钮，这何尝不是一种视觉浪费呢？

当然，用户层的表现最终还是要根据用户的需求、使用场景、使用习惯来决定。我经常在想，在 AI 技术变革的时代，会不会出现像鼠标之于 PC 机，触摸屏之于智能手机那样跨时代的交互方式？尽管 GPT-4o 发布会对多模态 Demo 的展示很让人震撼，但从用户角度，似乎仍然在人机交互上有些隔阂。我们在 AI 技术浪潮下，一定会诞生全新的人机交互，但在此之前，不妨简单地让 AI 产品的 UX 遵循以下两个原则。