如何成为一名优秀的策略产品经理

hzbooks

于 2020-10-29 07:00:00 发布

阅读量1.1k

点赞数 2

文章标签：百度大数据编程语言 python 机器学习

原文链接：http://product.dangdang.com/29123572.html

版权

导读：今天来跟大家聊聊策略（算法、AI）产品经理的方法论。

作者：青十五

来源：华章计算机（hzbook_jsj)

下文我们统一称策略产品（经理），至于算法产品、AI产品、数据产品等，很多时候职能或思考框架是一致的。

作为策略产品经理，我们会遇到很多问题需要解决，例如：

推荐策略怎么设计？我们可能会去看很多文章或一些书，面对一个一个新概念，例如协同过滤、User-Based等等，往往会陷入到公式无法自拔。
推送Push策略怎么设计？一般情况下我们需要考虑的包括文案、推送时间、人群等因素，这些因素的优化思路是否有统一的方法？为什么？类似的场景还有短信推送、EDM投递等。
风控反作弊策略怎么设计？当我们在设计风控、反作弊策略时，最大的难点在哪？
搜索策略怎么设计？什么样的搜索结果可以被认为是“好”的结果？线上和线下的判断方法是否有差异？
……

我们发现作为策略产品需要考虑的问题太多了，那么有没有哪个思考框架能够把策略产品相关的工作内容都纳入到这个体系中？我们是否可以建立一个统一的方法论去理解策略产品的设计思路，而不是case by case地学习每个场景与问题的解决方案？

为此，我根据十几年来在这个方向上学习和工作中（包括技术和非技术）的经验，总结了一个框架如下，希望对大家（尤其是刚入门或准备入门的同学）建立这类问题的初步分析能力有所帮助。

01 定义业务函数

当我们面临一个具体的业务场景，拿到一个具体的策略问题时，我们首先需要做的是，对问题进行建模——定义业务函数

怎么理解业务函数？举几个例子：

推荐的业务场景中，可以定义业务函数为：f（用户画像，待推荐的产品/内容，场景上下文，……）=是否推荐/推荐被接受的概率
推送push的业务场景中，可以定义业务函数为：f（用户画像，推送文案，推送时间，……）=是否推送/推送被点击的概率
风控的业务场景中，可以定义业务函数为：f（用户行为，用户画像，用户关系网，……）=是否风控拦截/该用户风控事件发生概率
搜索的业务场景中，可以定义业务函数为：f（产品/内容，搜索关键词，场景上下文，……）=是否进入搜索结果/结果命中用户需求的概率
……

函数的输入在这个阶段并不需要描述得多么严谨，但需要尽可能地囊括你能了解到的要素；函数的输出尽可能地量化，一般以是否或以概率来描述

总之，业务函数是指从业务的角度描述输入输出，把业务建模成定义域为所有要素组成的多维空间，值域定义在{0,1}或[0,1]的数学函数

当把这个数学函数定义好的同时，其实也已经帮助算法工程师和业务工程师做好了分工（函数的实现方和调用方）；类似的函数定义的更多例子，可以参考我写的《策略产品经理：模型与方法论》一书。

02 策略产品经理的工作内容

业务函数的定义域和值域定义好之后，这个业务函数本身，就是我们希望确定和输出的产品策略。

策略明确的过程，我们可以选择人肉执行，例如信贷风控业务中。

理论上，当定义域和值域确定了之后，世界上有无限个函数可以符合要求，哪一个最好？怎样找到理想的那个业务函数？这时就是策略产品经理及其团队登场的时候了。

对策略产品经理及其团队来说，他们的工作内容是，明确组成定义域的要素都有哪些，我们称之为特征；寻找一组已知的输入输出的例子（例如风控业务中过去发生过违约的用户），我们称之为样本；定义一个或一组判断业务函数在多大程度接近需要达成的业务目标的方法，我们称之为评估方法/评估函数。

最后寻找理想业务函数（策略）的过程，就是在已知特征、样本、评估方法的情况下，在茫茫多的函数空间中找到一个业务函数f，使得评估函数最优（或尽可能优），这个过程我们称之为算法。

以上整个过程最终可以用一个最优化公式描述：

策略产品3+1要素

03 样本获取的最佳方法——案例解读

评估、样本、特征+算法，即策略产品经理最需要关注的3+1要素。这三个要素要想详细展开，需要很大篇幅，这里就不过多介绍了，感兴趣的读者可以参考我的新书《策略产品经理：模型与方法论》，其中对此有详细介绍。这里我们仅从样本这一要素出发，聊聊都有哪些样本获取方法。

如果按数据源头来分类的话，样本可以大致分为内部样本与外部样本两类，下面我们分别介绍一下这两类样本的获取方法。

1. 内部样本

内部样本的获取方法包括：

（1）数据埋点与落库：这里提到的埋点与落库主要针对的是样本数据，包括正样本与负样本。样本数据埋点与落库应当完整地描述样本输入与输出，尽可能忠实并详细地还原每个样本产生时的相关数据。

例如内容推荐场景中，正样本是系统推荐后用户接受推荐点击浏览的记录，这部分数据一般比较容易采集，可以从内容的访问日志中还原出用户索引和内容ID并将其落库存储；负样本是系统推荐并展现后用户没有点击的内容，这部分数据的采集落库则需要把每次推荐后展现在用户面前的所有内容ID也都记录下来，并在使用时与正样本做一个差集计算。

上面提到的用户索引可以是手机号、用户ID、设备号等一切可以关联到用户信息的唯一标识，除用户索引和内容ID以外，我们还应记录上下文信息例如内容在此次推荐出现的排名、用户翻页次数、用户停留时间等等。上下文环境数据的详细程度取决于当前模型需求与复杂度，如果成本允许也可以前瞻性地在前端或客户端埋点记录；除此以外，样本数据还应该包括输出推荐结果的模型的版本编号或批次，一方面用于上面提到的负样本获取时的差集计算，另一方面用于模型迭代时进行对比与分析。

（2）数据标注：如果业务处在从0到1的初创阶段，系统还未上线，往往不具备构建上面提到的样本闭环的条件，数据埋点与落库也无从说起。这个阶段可以使用的一个方法如之前提到的，上线一个简单且成本低廉的基准策略后，用样本闭环来持续收集样本，但这种方法需要接受产品上线初期效果或体验较差的状态；如果是面向终端用户的产品，更为常见的方法是进行数据标注，即根据输入人工地标注一些样本的输出。

数据标注在工作量较少的情况下可以由策略产品经理及其策略团队一起完成，如果量大的话也可以交给企业内部专门的数据运营、数据标注团队（如果有的话）或市面上的第三方数据标注企业；无论是由企业内团队协作完成还是交给第三方标注企业完成，策略产品经理需要做的一件重要的事情是制定验收方法和一个统一的验收标准。

数据标注并不局限于业务初期，对于一些缺乏样本粒度直接反馈的业务场景来说是需要持续进行的工作，如仅输出业务函数的API业务（图像识别、人脸识别等API）、业务函数拆解后的中间环节（智能音箱的语音识别等模块）等。

（3）数据增强：对于一些特定的任务，例如图像分类、语音识别等任务，可以在已有样本的基础上通过数据变换对样本进行扩充，我们称之为数据增强（Data Augmentation）。例如对于图像分类任务，可以对图像进行翻转、平移、旋转、剪裁、拉伸等操作生成新的图像，甚至是改变图像的亮度、对比度、饱和度等。这些变换后的图像在语义上依然属于原有的分类，但是对机器来说相当于新的图像，某种角度上可以说实现了有效的样本扩充。

数据增强案例——类别为猫的图像与变换后的图像

（4）数据重组：数据重组指的是根据样本特性，从已有的产品业务数据中筛选或构造符合条件的样本的过程。这是一个容易被忽视、实际上却非常有效的样本获取方法，运用得当的话可以用较低的成本获取大量的样本数据。

我们可以从不同产品功能上产生的数据进行交叉筛选样本，例如在内容风控场景中，假如希望获取色情内容或擦边球内容的样本，除了基于内容本身的数据标注方法以外，还可以借助评论功能提供的信息，把在评论区出现大量留邮箱和大量类似“好人一生平安”留言的内容拿出来作为这类样本；我们也可以从数据本身的结构入手构造样本，例如在线招聘业务里给候选人推荐工作岗位或企业的场景中，除了在招聘系统业务闭环中收集候选人入职样本以外，还可以将所有候选人简历本身构造为一个样本，将简历的最后一段履历视为在这段履历入职之前“推荐”给该候选人的工作岗位企业的正样本。

2. 外部样本

内部样本是大部分业务最重要的样本来源，外部样本可以作为样本的补充。

（1）公开数据集：为了统一数据标准，以及降低大家的数据获取成本，许多学者自发地组织资源完善和整理了一些针对特定任务的样本，并共享给其他科研人员以及大众，这便是许多公开数据集的由来。

一份完整的数据集包括数据的来源、描述以及每个样本的输入和输出，一些典型的大型公开数据集如计算机视觉领域的ImageNet、语音识别领域的Switchboard以及自然语言处理领域的SQuAD等等，更多数据集可以从Google发布的数据集搜索引擎中获取：

Google数据集搜索引擎

（2）抓取与众包：除公开数据集以外，另一个比较常见的获取外部样本的方法还有数据抓取。例如通过对一些竞品内容或消费平台用户的浏览、消费、点评历史数据的抓取，可以用于在缺乏内部样本的情况下构建一个简单的基于内容的推荐系统；或者将一部分外部数据引入业务系统作为补充，例如对于一些支持第三方登录（如微博等）的内容平台，可以通过对用户授权的第三方平台信息（如最近发布的微博等）的获取，构建一个基于第三方信息的冷启动推荐模块。

众包也是一种低成本获取外部样本的方法，一个典型的众包的例子可以参考reCAPTCHA项目：

如果我们把思路再打开一些，把抓取与众包结合起来，我们可以发现一些新的样本来源。举例来说，在一些地图、本地生活等搜索场景中，用户提交搜索的地点往往是地名的缩写或别称，例如北京大学第三医院-北医三院、国家体育馆-鸟巢等；又比如说，在一些职场社交或在线招聘业务中，用户手动输入的履历对中学、高校或企业名称常常使用缩写或别名，例如北京市第四中学-北京四中、哈尔滨工业大学-哈工大、中国石油天然气集团有限公司-中石油等，我们希望识别这类对同一实体的命名，以便于更好地实现搜索提示、好友推荐或候选人推荐。

对于这类同义词识别问题或同实体识别问题：

f（词语）=同义词/同实体

我们可以基于用户搜索历史、用户关系等线索构建模型，至于样本而言除了人工标注以外，还有一个低成本的来源——百度百科。如下图所示，在百度百科中许多词语与同义词的对应关系是可以从页面或URL中获取的，而这些对应关系本身是由广大网友们众包编辑完成的，这意味着借助抓取和百度百科平台组织的众包力量，我们可以有效且低成本地获取这一类业务问题的样本。