AI 产品的定义
在展开之前,有必要澄清下当下大家经常听到的 AI 产品的概念,我对它的定义是基于生成式 AI 技术构建的软硬件产品,而生成式 AI 是人工智能的一个分支,其核心是能够生成随机内容的计算机模型,常见的生成式 AI 模型包括生成式对抗网络 (GAN),变分自动编码器 (VAE),大型语言模型 (LLM)等,基于生成式 AI 技术的应用示例有 ChatGPT、DALL-E、Google Bard、Midjourney、Adobe Firefly 和 Stable Diffusion 等。
值得一提的是传统的搜索、广告、推荐系统其实也都算是使用机器学习算法的 AI 产品。
产品经理能力
虽然我过往的工作经历并非产品经理,但是从我的合作经验来看,传统产品经理主要关注编写文档、描述功能、定义需求和设计产品结构,工作内容往往侧重于用确定的业务规则来规划产品的每个步骤,并通过产品市场适应性 (PMF) (由用户数量和市场反馈等指标组成)来评估产品是否满足市场需求,注重用户增长和用户满意度数据。
但通过我一个月的实践,AI 产品经理优先考虑的应该是将用户需求转化为有效的测试集,确保产品 demo 版本测试集和用户需求分布一致,分布合理的测试集才是产品阶段性成功的关键标志,然后在满足内部指标要求的基础上对测试集进行迭代,最后才是传统产品中用户满意等指标达成。其次就是对行业的理解程度决定你设计的产品给用户带来的“惊喜感”程度,比如做的是 toB 的分析工具,不应该是传统的冷冰冰的数据分析看板工具,而是一个更像人的应用,是人它就有优点(大模型分析能力),也有缺点(对应大模型的幻觉),透过数据能给建议,可行的建议,建议执行后的模拟结果,这应该是提供建议前都想好的。
一定要了解技术,因为我自己做技术出身的,也算是自带优势,最好亲自在各大模型厂商提供的 Playgrond 中多多调试提示词,相同的提示词遇到不同家的模型效果千差万别,了解模型的能力边界,做 AI 产品的前提起码自己得是一个优秀的提示词工程师。其次是要读论文的,比如 Transform 架构的多头注意力机制能够提升信息捕捉能力,学习复杂的表示为下游任务提供了一个丰富而综合的信息集合,比如Reason and Act[1] (ReAct) 框架,通过推理确定下一步行动,生成相应命令,然后执行。ReAct 范式会在一个循环中重复这个过程,直到任务完成,比如 Self-Ask[2]、Chain of Thought Prompting[3] (CoT) 以及 Plan-and-solve Prompting[4],这些技术通常会先制定一个计划,以便把复杂任务分解成更简单的子任务,最后要是能借助 ChatGPT 能写一点代码来进行 POC(概念验证)就最好了。
再谈谈交互,自然语言交互是一件成本很高,对用户要求很高的事情,让用户输入文字直接描述自己的意图真的太难了,那产品的解法就是(1)引导话题,限定范围,AI 单次输出内容少,但是输出频度高;(2)干脆只给选择题(A,B,C,D),甚至简单到给 yes or no 来推进对话,这里推荐一本语音交互的书**《语音界面冲击》**[5],特别是第 3 章和第 7 章,对我来说还是比较受用的;(3) 做 toB,其实没有那么激进,触摸操作和自然语言交互五五开进行互补才是更好的方式。
最后聊聊以终为始思考问题,如果你想集成 AI 能力或者从 0 到 1 做 AI 产品,一定要思考好你的产品阶段性状态是什么样的,最终目标状态是什么样的,然后倒退回来一步步往前迭代,以我正在做的 toB 产品 AI 改造路径为例,可以分为三个阶段:
1.第一阶段:帮助用户从复杂的后台中抽离出来,快速理解的系统,能够快速找到想要的功能。
- 单个功能:对单个功能的作用定义清楚,转化为提示词
- 子工作流:对局部几个关系紧密的功能,交互流程进行提炼,转换为提示词
- 整体工作流:整合所有子工作流,转换为编排流
- 第二阶段:工作流 Copilot ,既能理解系统的功能,也能从业务的最佳实践出发,根据用户的具体情况,进行推理分析,综合各种因素给出用户行动建议。
- 第三阶段:业务 Agent,直接去把建议对应的行动执行了,并将最终的实施效果呈现出来。
Agent 如何落地
Agent 是什么
这篇文章其实有点标题党,其实以 1 ~ 2 年的时间跨度看, 讲 Copilot 比 Agent 更务实,我对两年内出现真正成熟 Agent 产品持怀疑态度,且当下普遍谈论的 Agent 都有蹭热点嫌疑的,这里我需要引用汪军老师的定义(来自讲座《AI Agent,通用人工智能改变世界的钥匙?》,伦敦大学学院(UCL)汪军教授、清华大学计算机系刘知远副教授与华为语音语义首席科学家刘群老师三位专家就智能体学习的前沿技术、大模型在智能体领域的应用、智能体的结构设计(思维链路、决策机制、价值对齐)以及多智能体等多个重要话题进行了探讨和交流。可以后台回复【Agent】获取全文文字稿)
Agent 的一个非常重要的特点是它在一定程度上是自治的,可以自主地做决策并感知环境,对环境做出改变,Agent 与一般程序有较大的不同,可以被看作是一个与人类类似的主体,能够认识世界并改变世界。
toC
今年上半年应该是去年拿到投资的团队兑现产品的时候了,到时候会井喷式出现一些 AI 应用,个人精力有限,按照时间跨度只关注下面四种类型的产品。
短期(1 年内)-个人提效
当下代表性产品:Microsoft 365 Copilot , WPS AI
-
第一类面对的主要是个人职场需要的通用技能场景,解放重复的脑力劳动,总结汇报,创意探索等。
-
第二类针对专门岗位的工具,比如运营的文案撰写,方案策划;产品经理的 PRD 撰写,利用 AI 做用户洞察/需求分析;帮助律师生成合同审核报告等。
-
第三类其实算是 to 小 B 范围,流量 IP,网红等,拥有自己的工作室,或者用当下比较时髦的叫法叫做“超级个体”,需要在社交平台模板化生产内容,引流,自动化私域运营等,涉及的链路比较长。
中期(2 ~ 3 年)-内容平台和虚拟社交
内容平台
内容平台这个很有想象力,Midjourney 会不会是下一个 Youtube 或者 Netflix?当前的算法推荐方式是因为内容供给有限,AI 理论上可以带来无限的内容供给,每个用户所需的内容都可以即时生成,那还需要算法推荐吗,比如我想要看皮克斯动画风格的《繁花》,使用相应的提示词直接可以进行另类剧情的演绎,Midjourney 只是用来创建旧媒体的工具,还是说它本身就是一种「新媒体」?
虚拟社交类
当下代表性产品:Character.ai、Glow(国内)
虚拟社交类因为我不是目标用户,我短期内也不会咋关注,但确实拥有很大的市场,以去年为例,腾讯音乐的“未伴”APP、腾讯阅文的“筑梦岛”APP、抖音的“抖音心晴”、美团的“WOW”APP,快手的“AI 小快”,百度的“WiseAI”、“万话”等,不过大多是捏出来的试验品,但我的观点是初创团队干不过具备自研大模型能力的厂商,安全对齐和可控输出、长记忆问题在应用层能改善的有限。
长期(3 ~ 5 年)-数字助理
当下代表性产品:软件 Rewind,硬件 AI Pin
-
端侧模型的能力决定发展的潜力,RWKV值得关注
-
交互形态
-
- 过渡阶段一,对控件进行定义,按照 RPA 机器人这一套模拟人进行界面自动化操作
- 过渡阶段二,操作系统级别的 AI 助手定位到软件内部 AI 助手,下一步继续使用 App 内 AI 助手交互
- 过渡阶段三,App 与操作系统定义一套协议接口,系统级别的 AI 助手作为统一入口,可以随意操作 App
- 最终形态,全新的硬件,全息投影,全新的。。。我也无法想象
-
需要新的不同于手机的硬件形态吗,可能需要,比如前不久大火的 AI Pin,不过我的观点还是太早了,我认为手机的形式还是普通人最快使用上的硬件形态,但我憧憬能有带来新体验的硬件形态 😄
toB
toB 大概分为两方面,一方面是现有 toB 工具和服务的改造,一方面是借助 AI 的能力重塑企业现有工作流。
toB 工具改造
面对当前的 AI 输出不可控的现状,用 AI 做分析比生成更有潜力,toB 工具 AI 改造是非常有价值的实践方向,有数据积累有业务场景,这是我最看好,也是当前落地见效最快的领域。
强大的 SaaS 工具,往往并不能真正给客户交付结果,因为你太强大了,他不会用。而简单的智能化的系统既可以给用户建议,又能自动化执行,某种程度上就是直接交付结果。
重塑工作流
一些初创公司:BetterYeah(国内)、AutoAgents(国内)、Relevance AI(海外)、澜码科技(国内)
智能机器替代重复脑力劳动,类似于工业机器替代体力劳动,智能机器人的加入使越来越多的脑力劳动者得以解放,进而需要调整工作流程。
AI 在销售、客服和营销领域展现了显著的效率和效果提升潜力,几乎所有平台都具备这方面能力,在实际应用中,因为最底层的接口没打通,低代码、无代码和 RPA 技术成为 AI 落地的重要支撑,尤其在 AI Agent 成熟之前,这些技术提供了相对较低的成本和更可控的效果,此外,专家知识的数字化和标准操作流程(SOP)是企业应用 Agent 的关键。
AI 可以呈现出多种形态,第一种形态是作为工作助手(Copilot),在此模式下,人类发出指令,AI 代理执行面向特定软件的操作,以提高员工的办公效率。第二种形态是业务自动巡航,它代表了一个新的用户接口,能够承接大量业务逻辑,无需用户学习即可使用,从而提供更佳的使用体验,如 AutoAgents.ai 平台在航班预订、员工服务和会议管理等方面已初步落地。第三种形态是自主智能体(Autonomous Agents),具备完全自治的能力,能够自主完成目标理解、规划、执行和反馈迭代等多项任务。
其他
下面的信息来自后台私信的咨询,权当一个视角作为交叉信息源:
- 不知道是不是因为 AI 相关信息炒作的太猛,来咨询的传统企业负责人居然占比很高,可能是传统企业重复的脑力劳动场景更多。
- 稳定性是第一位,说一千道一万,如果 AI 不能背锅,那还是不上为好。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
