我们需要提高人工智能产品经理的标准

数云界

于 2024-08-09 10:46:21 发布

阅读量429

点赞数 18

文章标签：产品经理

本文链接：https://blog.csdn.net/2401_85233349/article/details/141055880

版权

如何停止指责“模型”并开始构建成功的人工智能产品

产品经理负责决定开发什么，并对决策结果负责。这适用于所有类型的产品，包括由人工智能驱动的产品。然而，在过去十年中，产品经理将人工智能模型视为黑匣子是一种常见做法，将不良结果的责任推给模型开发人员

PM：我不知道模型为什么会这样做，请询问模型开发人员。

这种行为就像在网站重新设计后将注册人数不佳归咎于设计师一样毫无道理。科技公司认为，从事消费产品工作的项目经理有直觉，能够对设计变更做出明智的决定，并对结果负责。

那么为什么这种对人工智能不干预的态度会成为常态呢？

问题：PM 倾向于远离模型开发过程。

亲自动手与不亲自动手的 AI 产品管理——概述

这种更为严格的实践方法有助于确保模型成功落地并为用户提供最佳体验。

实践方法需要：

更多的技术知识和理解。
对发布时存在的任何已知问题或权衡承担更多风险和责任。
花费 2 到 3 倍的时间和精力——创建评估数据集来系统地测量模型行为可能需要花费数小时到数周的时间。

不确定评估是什么？请查看我的帖子“评估”到底是什么以及产品经理为什么要关心它？”。

十有八九，当模型发布失败时，公司会采取放任不管的策略。Netflix、Google、Meta 和 Amazon 等在产品中部署 AI 已有多年历史的大公司则较少采取这种策略，但本文不适合他们。

然而，克服放手式做法的惯性可能颇具挑战性。当公司领导层不再期待更多时尤其如此，而 PM 甚至可能因采用亲力亲为的做法而面临“减慢”开发周期的阻力。

亲自动手与放手不管的产品管理——模型开发流程

想象一下，亚马逊等市场的一名产品经理负责为父母开发产品包推荐系统。考虑两种方法。

放手式人工智能项目经理——模型要求

目标：增加购买量。

评估：模型开发人员认为最好的。

指标：使用 A/B 测试来决定是否向 100％的用户推出，以查看购买率是否有统计意义的提高。

实践 AI PM - 模型要求

目标：帮助父母发现他们没有意识到需要的优质产品，让他们的育儿之旅变得更加轻松。

指标：主要指标是推动幼儿父母购买产品。我们将监测的次要长期指标是首次在捆绑产品中发现的品牌的重复购买率以及市场上品牌的长期多样性。

评估：除了运行 A/B 测试外，我们的离线评估集还将查看多个样本用户的样本推荐，这些样本用户来自父母的关键阶段（优先考虑孕妇、新生儿、大龄婴儿、幼儿、幼儿）和四个收入阶层。如果我们在这里发现任何意外情况（例如：向低收入父母推荐最昂贵的产品），我们需要更仔细地研究训练数据和模型设计。

在我们的评估集中，我们将考虑：

个性化——看看有多少人购买了相同的产品。我们预计收入和儿童年龄组之间存在差异
避免冗余——如果捆绑包中已经有一个耐用品（婴儿床、奶瓶加热器）的重复推荐，或者用户已经从我们这里购买了这种类型的物品，则对重复推荐进行惩罚（不要对尿布等消耗品或玩具等收藏品进行惩罚）
一致性——不同阶段的产品不应该混合在一起（例如：婴儿奶瓶和 2 岁儿童的衣服）
凝聚力——避免混合截然不同的产品，例如：超级昂贵的手工木制玩具与非常便宜的塑料玩具，带有授权角色的鲜艳印花与柔和的粉彩。

次要目标的可能驱动因素

考虑尝试对重复购买产品设置奖励权重。即使我们预先销售的捆绑包数量略少，但如果这意味着这样做的人将来更有可能购买更多产品，那么这也是一个不错的权衡。
为了长期支持市场健康，我们不想只偏向畅销品。在坚持质量检查的同时，争取至少 10% 的推荐中包含非同类品牌。如果从一开始就没有做到这一点，该模型可能会默认采用“最低公分母”行为，并且很可能没有进行适当的个性化

实践 AI产品管理— 模型开发人员协作

具体的模型架构应该由模型开发人员决定，但 PM 应该在以下方面有很大的发言权：

该模型的优化目标是什么（这应该比“更多购买”或“更多点击”更深一到两层）
如何评估模型性能。
用什么例子来评价。

客观地说，亲自动手的方法需要做更多的工作！而且这是假设 PM 从一开始就参与到模型开发过程中。有时模型开发人员具有良好的 PM 直觉，可以在模型设计中考虑用户体验。然而，公司不应该指望这一点，因为在实践中，精通 UX 的模型开发人员是千里挑一的独角兽。

此外，放手不管的方法有时可能仍然有效。然而在实践中，这通常会导致：

模型性能不理想，可能会导致项目失败（例如：高管认为捆绑销售是个坏主意）。
错失了重大改进的机会（例如：提升 3% 而不是 15%）。
不受监控的对生态系统的长期影响（例如：小品牌离开平台，增加对少数大参与者的依赖）。

亲自动手与放手不管的产品管理——产品回顾

除了前期工作量增加之外，亲自动手的方法还可以从根本上改变产品评审的流程。

免提 AI PM 产品评论

Leader：为父母提供捆绑服务似乎是个好主意。让我们看看它在 A/B 测试中的表现如何。

亲身体验 AI PM 产品评论

领导：我读了你的提案。如果畅销产品是最好的产品，那么只推荐畅销产品有什么问题？我们难道不应该做对用户最有利的事情吗？

[半小时后辩论]

PM：正如你所见，畅销书不太可能真正适合所有人。以尿布为例。低收入的父母应该知道亚马逊品牌的尿布，其价格是畅销书的一半。高收入的父母应该知道富裕客户喜欢的新昂贵品牌，因为它感觉像云一样。此外，如果我们总是青睐某一类别中的现有赢家，那么从长远来看，更新但更好的产品将很难出现。

领导：好的。我只是想确保我们不会无意中推荐劣质产品。您建议采用哪些质量控制指标来确保这种情况不会发生？

模型开发者：为了确保只展示高质量的产品，我们使用以下信号……

放手式人工智能产品管理的隐性成本

上述对比场景说明了 AI 产品管理中的一个关键时刻。虽然亲力亲为的 PM 成功地进行了一场具有挑战性的对话，但这种方法并非没有风险。许多 PM 面临着快速交付的压力，他们可能会选择阻力最小的路径。

毕竟，放手不管的做法可以保证产品审核更顺畅、审批更迅速，而且如果出现问题，还可以方便地找到替罪羊（模型开发人员）。然而，这种短期的轻松会带来高昂的长期成本，对产品和整个组织来说都是如此。

当项目经理不再深入参与 AI 开发时，显而易见的问题和关键的权衡仍然隐藏着，从而导致几个重大后果，包括：

目标不一致：如果 PM 不能洞察用户需求和业务目标，模型开发人员可能会优化易于衡量的指标（如点击率），而不是真正的用户价值。
意想不到的生态系统效应：孤立优化的模型可能会产生深远的影响。例如，总是推荐畅销产品可能会逐渐将小品牌挤出市场，减少多样性，并可能损害平台的长期健康。
责任分散：当决策“由模型决定”时，就会产生危险的责任真空。项目经理和领导者不能为他们从未明确考虑或批准的结果负责。这种缺乏明确责任的现象可能会导致一种文化，即没有人觉得自己有权主动解决问题，这可能会导致小问题演变成重大危机。
低水平模型的延续：如果不从产品角度仔细检查模型的缺点，就无法确定和优先考虑影响最大的改进。承认并承认这些缺点对于团队在发布时做出正确的权衡决策是必要的。没有这一点，表现不佳的模型将成为常态。这种回避循环阻碍了模型的发展，浪费了人工智能推动真正用户和商业价值的潜力。

PM 可以采取的第一步是变得更加亲力亲为吗？询问您的模型开发人员如何帮助进行评估！有很多很棒的免费工具可以帮助完成此过程，例如promptfoo（Shopify 首席执行官的最爱）。

领导力的当务之急：重新定义期望

产品领导力在提升 AI 产品标准方面发挥着关键作用。正如 UI 更改需要经过多次审核一样，AI 模型也需要同样甚至更严格的审核，因为它们对用户体验和长期产品结果有着深远的影响。

促进 PM 更深入地参与模型开发的第一步是让他们了解他们所运送的东西。

问以下问题：

您使用的是什么评估方法？您如何获取示例？我可以查看示例结果吗？
您认为在第一个版本中支持哪些用例最为重要？我们是否需要做出任何权衡以促进这一点？

认真考虑在何处使用哪种类型的评估：

对于部署在高风险表面上的模型，请考虑将使用评估集作为一项要求。这还应与尽可能严格的发布后影响和行为分析相结合。
对于部署在较低风险表面上的模型，请考虑允许以不太严格的评估进行更快的首次启动，但在收集到有关用户行为的数据后推动快速的发布后迭代。
调查模型训练和评分中的反馈回路，确保人工监督不仅仅是精确度/召回率指标。

请记住，迭代是关键。交付的初始模型很少是最终模型。确保有资源可用于后续工作。

最终，人工智能的广泛采用既带来了巨大的希望，也为产品所有权带来了重大变化。为了充分发挥其潜力，我们必须超越常常导致次优结果的放任态度。产品负责人在这一转变中发挥着关键作用。通过要求 PM 更深入地了解人工智能模型并培养责任文化，我们可以确保人工智能产品经过深思熟虑的设计、严格的测试，并真正造福用户。这需要许多团队提高技能，但资源随时可用。人工智能的未来取决于它。

数云界

关注

18
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
我们需要提高人工智能产品经理的标准

通过要求 PM 更深入地了解人工智能模型并培养责任文化，我们可以确保人工智能产品经过深思熟虑的设计、严格的测试，并真正造福用户。评估：除了运行 A/B 测试外，我们的离线评估集还将查看多个样本用户的样本推荐，这些样本用户来自父母的关键阶段（优先考虑孕妇、新生儿、大龄婴儿、幼儿、幼儿）和四个收入阶层。此外，如果我们总是青睐某一类别中的现有赢家，那么从长远来看，更新但更好的产品将很难出现。我们将监测的次要长期指标是首次在捆绑产品中发现的品牌的重复购买率以及市场上品牌的长期多样性。领导：我读了你的提案。
复制链接

扫一扫