架构分层
在我看来,每个AI产品都可以分为4层结构
第一层:数据、算力、算法层。
第二层:模型层。
第三层:应用层。
第四层:用户层。
第一层:数据、算力、算法层
这一层是 AI 产品的基座,相当于人在成长过程中所接受的教育体系,包括丰富的学习资源、教学硬件和优秀的老师,这三者分别对应数据、算力、和算法。
1、数据
这个概念很好理解。数据按照内容分两类,一类是用于建设 AI 基础能力的海量数据,就像学校的图书馆资源,对所有人来说都是一样的; 一类是个性化数据,就像你在图书馆之外,总有自己独特的学习资料,比如学长的学习笔记,你感兴趣的课外读物。
第一类数据由大模型厂商决定,需要专门的数据供应方和大模型厂商来做,和普通的 AI 产品经理关系不大。但第二类数据就是 AI 产品经理要来“精挑细选”了。
2、算力
这是支撑 AI 产品的硬件环境,它就像是一个学校里的教学设备、教室、实验室等等。对于 AI 来说,算力就是计算时使用的芯片。当然,你不需要了解芯片的制作工艺、使用效率。但作为 AI 产品经理,你需要了解三点。
1)如何评估一个 AI 产品对算力的需求?
2)使用这些算力要花多少钱?
3)使用哪些方法可以降低成本?
这些能力能帮助你从 ROI 角度评估产品的商业可行性。比如我们现在经常使用的免费 AI 搜索,如果不做任何成本调优,一次搜索都要花掉几块钱。那假如一天发起十万次搜索,仅仅算力成本就要消耗几十万块。想要长期发展,就必须在商业收益和成本上做好规划
3、算法
如果说数据和算力都有一个具象的表现,那么算法就是 AI 背后最抽象的计算机原理。好比学校里的老师,我们并不是看这个老师长得高矮胖瘦,而是要看 Ta 的教学方法,这个方法相比教学设备、图书资源是很抽象的,也是比较难的部分。
对于 AI 产品经理来说,了解算法有两大好处。一是能帮助我们理解技术边界,鉴定什么问题 AI 能解决,什么不能解决。二是能帮我们与算法工程师、开发工程师更好地合作,换个黑话的说法就是“避免被他们忽悠了”。
第二层:模型层
基座大模型
垂直领域模型
场景模型
有了上一层的学校图书馆、教学场地和优秀老师,接下来就是花时间培育出优秀的“学生”了。
模型层细分可以分为三层,分别对应着不同水平的学生,我们由下至上来看。
- Level 0:基座大模型,相当于本科生,具备通用能力。
- Level 1:垂直领域模型,相当于在本科毕业后继续攻读的研究生,具备一定专业领域的知识。
- Level 2:场景模型,相当于本科或研究生毕业后,经过工作经验积累,或者公司的专项培训,具备某些业务专家的能力。
在一个 AI 产品中,你可以仅选择其中某个层级的模型,也可以根据需要选择多个模型。就像一个公司既有本科生,又会有研究生,也会有业务专家。
作为 AI 产品经理,我们就需要像公司的 HR 一样,起码具备两项能力。
1)如何挑选合适的员工,也就是为产品场景找到合适的基座大模型或者领域模型。
2)如何进行公司内部的专项培训,也就是训练出一个场景模型,这里需要理解模型微调原理。
好了,我们总结下第一层和第二层需要掌握的知识点,以及掌握这些知识点后你可以具备的能力。这部分的细节我们会在后续课程中详细展开。
当你找到合适的“人员”,接下来就是要调动这些资源动手做东西啦,也就到了产品的应用层。
这里留一个小问题,什么是模型呢?
第三层:应用层
这里的应用层更像是产品拆开包装后,你所看到的各个元器件之间是怎么组织、协调的,也是产品经理和应用开发者工作最繁重的地方。
如果说前面的两层主要是理论学习,那么应用层拼的就是实战学习。我会在后续的课程中以亲身实践案例来讲述。在这里,你需要掌握两大核心技术,提示词工程和 Agent 设计。
提示词工程
这里的提示词工程并非你常听到的和 ChatGPT 对话的提示词撰写技巧,而是面向产品经理的提示词工程技术。我用一个比喻来说明二者的不同。
- 如果你是 ChatGPT 的用户,写提示词就像玩盲盒。你对结果有所期待,但不要求确定。
- 如果你是 AI 产品经理,写提示词就像打靶。你是首先有一个确定的目标,再开始写提示词,直到提示词能打中靶心为止。
比如在客服场景中,我们需要设计提示词,让 AI 判断对话中,用户的情绪是正面、中性还是负面。
- 当用户输入“今天别给我送快递,我不方便收货,如果可以明天送”时,输出立场为中性。
- 当用户输入“包包内部结构不好,找东西不方便”时,输出立场为“负面”。
在这两个例子中,都有“不方便”这个词,但输出的立场却不一样。那么我们在写提示词的时候,就必须做多次试验,保证相似的场景能有严格的输出,像打靶一样每次都能打到靶心
为了达到这个目标,你的提示词可能是这样的:
你看,这个提示词里貌似有很多“废话”,但对于一个模型来说是必要的。这个例子里的提示词工程用专业名词来说叫 Hard prompting(硬提示)工程,就是把提示词当做输入项直接给到模型,输出期待的答案。
既然有 Hard prompting, 那就会有 Soft prompting(软提示),它还有另外一个名字,叫 Prompt tuning,提示词微调工程。简单来说,就是用微调模型的方法让模型学习到某种模式,模型学会之后,就不用再像 Hard prompting 那样输入很长的提示词了。
比如在上面的例子中我们会搭配很多组这样的数据对来微调模型。
在模型微调结束后, 我们就只需要以下几句话就可以得到我们期待的结果,这个长度就比 Hard prompting 的“废话”少多了。
打个比方吧,Hard prompting 就好像你对一个刚入职的新同事给他安排任务,需要很详细地告诉 ta 要做什么,为什么要做,如何做,具体步骤,而且要给给他举例说明。而 Soft prompting 就像是培养一个熟练工,当新同事适应一段时间后,你不再需要那么详细,可能只需要一句话,他就能体会你的意思。这也意味着你对他成功地完成了 Soft prompting 工程。
回到产品本身,就是在产品实验阶段通过 Hard prompting 进行验证,上线得到真实数据验证成功后,通过 Soft prompting 微调那些在模型里形成的程序性记忆。我们在后续的实战案例 11-13 节中会详细讲述。
我们把上述提示词工程总结为一个提示词的生命周期,就像下面这张图展示的内容。
Agent 设计
如果说提示词工程是用来影响模型的思考,那么 Agent 则在思考的基础之上增加了行动能力。
仅使用提示词工程的 AI 产品只会聊天,而结合 Agent 设计的 AI 产品就既能聊天,还能做事情,不会沦为思想上的巨人,行动上的矮子。
Agent 翻译为中文叫智能体,直译过来叫“代理”,早在 1986 年,图灵奖得主 Marvin Minsky 在《The Society of Mind》一书中就提到了 Agent 的概念。那为什么现在又重新被推上历史舞台了呢?
因为 Agent 实际上有五个递进的等级,而当下正处于从第二级向第三级跨越的阶段。
我们依次说下这五个等级。
- 第一级:基于规则,能使用工具的智能体。
- 第二级:基于模仿学习、强化学习,能使用工具且能做决策、推理的智能体。
- 第三级:基于大语言模型,在第二级能力之上,增加了记忆、反思能力。
- 第四级:基于大语言模型,在第三级能力之上,增加了自主学习能力。
- 第五级:基于大语言模型,在第四级能力之上,增加了情感、智能体的社会协同能力。
在这一轮,为了让 Agent 能跨向第三级,解锁更多使用场景,AI 产品经理们需要为 Agent 构建出四个能力。
- 工具使用能力
- 记忆能力
- 反思能力
- 规划决策能力
我举例来说明这几项能力的定义。比如我写这节课这天正好是父亲节,我想做一张父亲节卡片。
- 【工具使用能力】我告诉 ChatGPT:“画一张父亲节主题的卡片”。Ta 会调用 AI 画图工具 DALL.E-3 绘出一张卡片,这是工具使用能力。
- 【记忆能力】可我发现这张卡片上的主题词是英文字母,这可不行,我爸看不懂英语,于是我告诉 Ta“把卡片上的英文换成中文”,ChatGPT 会理解这句话,并再次调用 DALL.E-3 绘出一张卡片。这时你发现 ChatGPT 其实记住了我这里说的“卡片”指的就是第一次对话生成的卡片,这就是记忆能力。
- 【反思能力】然后,我再问 ChatGPT “如果你是一位 60 岁的男性,你会喜欢这样的卡片吗?”,好了,Ta 就会读取这张照片,并以 60 岁男性的角色评判这张图片,这就具备了反思能力。
- 【规划能力】最后,我完成了父亲节卡片。下次如果遇到母亲节,我问 ChatGPT“如何做一张母亲节的卡片”,那么 ChatGPT 就会自己建议:第一步用 DALL.E 画一张照片,第二步以母亲的身份来评价这张照片,直到满意为止。这就具备了规划能力。
通过应用层的这两个核心技术,我们就可以把产品的核心功能构建起来。接下来我们的产品就要包装一下,正式向用户见面了。我们来到了 AI 产品的第四层。
第四层:用户层
这一层是很多 AI 产品经理比较困惑的地方,我之前在做互联网产品的时候,产品经理的一大能力就是画原型图,而现在的 AI 产品,似乎大部分是一个用户对话界面,AI 产品经理画原型图再也不用画那种长达十几页的用户跳转旅程。
然而这种对话界面绝对不是、也不应该成为唯一的形态。因为人类的信息有 80% 是从视觉中获得的,而这 80% 的视觉绝不是只用来看文字的。我在这里举个以画布作为用户层的例子供大家参考。
想象一下,你和一位同事在白板前讨论问题,而这位同事就是一个智能体。
- 首先你说出了一个想法,“咱们要调研一下关于具身机器人的东东”。然后 Ta 在画布迅速画出一个脑图。
- 可是你发现,这些脑图用一个维恩图来表示会更好,因为其中有些项目是有重叠、关联作用的,维恩图更适合表达这种关系,于是你告诉“同事”,“我觉得用维恩图表达更好”。
- 于是 Ta 迅速改成了维恩图的方式。你们两个如此反复,
- 最终通过这种互动方式做出来一个调研思路。
- 最后 Agent 根据这个思路通过搜索工具总结出一份完整的报告。
你瞧,这种方式就让人机交互变得更加自然,这也是这一轮 AI 给产品形态带来的革命性改变。也许你已经习惯了我们在 App 上点来点去,但仔细想想,在一个偌大的屏幕上,有时候可能你只关注某个角落里的一个按钮,这何尝不是一种视觉浪费呢?
当然,用户层的表现最终还是要根据用户的需求、使用场景、使用习惯来决定。我经常在想,在 AI 技术变革的时代,会不会出现像鼠标之于 PC 机,触摸屏之于智能手机那样跨时代的交互方式?尽管 GPT-4o 发布会对多模态 Demo 的展示很让人震撼,但从用户角度,似乎仍然在人机交互上有些隔阂。我们在 AI 技术浪潮下,一定会诞生全新的人机交互,但在此之前,不妨简单地让 AI 产品的 UX 遵循以下两个原则。
- 让用户的学习路径最短。
- 让效果呈现最直观。
小结
今天我们讲了 AI 产品有四层结构:数据、算力、算法层,模型层,应用层和用户层。你是不是对一个 AI 产品的全貌有个体系化的了解了呢?
在这节课开头,我把这个四层结构比作一座冰山,因为首先我们希望 AI 产品像一座建筑物结实可靠。而在即将结束这节课的时候,我更愿意把 AI 产品比作你要塑造的生命体。
最底层(数据、算力、算法层)决定了生命体的气质:
它是构建 AI 产品的基础,对底层的了解可以帮助我们确定技术边界,告诉我们什么样的产品功能可以用 AI 实现,什么样的功能需要产品侧降级,什么样的功能无法实现。
模型层是在构建生命体的专业素养:
AI 产品经理需要懂得如何选用合适的基础模型,如何收集用于模型微调的优质数据集。
以上这两层我们会以理论学习为主。再往上的应用层和用户层是 AI 产品经理日常工作的主要内容,是我们需要通过大量实践才能掌握的技能。
应用层是培训生命体的实战技术:
AI 产品经理需要掌握提示词工程和 Agent 设计两大核心技术。提示词工程是为了控制 AI 产品的输出,Agent 设计则是为了让 AI 产品具备思考和行动的能力。而这两项内容也会作为核心内容出现的 AI 产品的 PRD 文档中。
用户层是塑造生命体的外在形象:
希望你的 AI 产品最终能成为一个内外兼修的生命体,持续生长。与此同时,你也会成长为一位连接用户与 AI 技术的硬核 AI 产品经理。