AI产品经理需要懂的技术全景图（自学笔记3）_人工智能产品经理技能图谱-CSDN博客

本文链接：https://blog.csdn.net/m0_63177455/article/details/139511603

AI 产品经理一定要懂技术！

总的来说，AI 产品经理需要知道五方面的技术知识：1.数学统计学相关的基本概念 2. 模型构建的整个流程 3.常见算法的原理和应用场景 4.模型验收的具体指标和方法 5.模型相关的技术名词。其中，模型的构建流程、算法的技术知识和模型的验收标准这三项知识非常重要，它们也是 AI 产品经理必备的核心能力。

数学统计学相关的基本概念

分为两类：一类是线性代数中的基础名词，如标量、向量、张量；另一类是概率统计中的常见分布，如正态分布、伯努利分布。

线性代数中的基础名词

标量（Scalar）：一个单独的数

向量（Vector）：标量按一定顺序组成一个序列数，如 {x1 , x2 , x3 ,..., xn}

矩阵（Matrix）：把向量中所有标量都替换成相同规格的向量

：

张量（Tensor）：将矩阵中的每个标量元素替换成为向量

标量看成是零阶张量，向量看成是一阶张量（一维数组），矩阵看成是二阶张量（二维数组），而且任意一张彩色图片都可以表示成一个三阶张量

举例理解：把矩阵看成一个灰度图像，如果一张灰度图像是由 32*32 个像素点组成，那这个图像就是一个32*32 的矩阵，每一个像素点就是由灰度值（0 到 255）组成的标量。

再比如，在做用户画像的时候，如果有 N 个用户，每个用户有 M 个特征，我们就会得到一个用户画像。它可以看成是一个 N*M 的矩阵，矩阵中的每一个点，都是某一个用户对应的某个特征，是一个具体的数值，也就是标量了。

概率统计中的常见分布

概率分布是用来评估特征数据和模型结果的武器。产品经理要掌握常用的概率分布的类型。其次，还要知道业务场景下的特征数据和模型结果的分布，以及它们应该符合哪种分布类型。这样，产品经理就可以把概率分布应用于日常的工作中。

伯努利分布：也可以叫做零一分布。如果我们只进行一次实验，并且这个实验只有两个结果，分别记为 0、1。比如抛一次硬币。

二项分布： n 次相互独立的伯努利实验中，结果为 0 的次数的离散概率分布。你也可以理解为，抛 n 次硬币，出现正面次数的概率的分布。

泊松分布：单位时间内，随机事件发生的次数。比如，我们的频道页平均每分钟就有 2000 次访问，那如果让我们计算出下一分钟能够有 4000 次访问的概率，这个结果就是泊松分布。

正态分布：也叫高斯分布。正态分布的曲线特点是两头低、中间高，左右对称，所以我们也经常叫它钟形曲线。在现实生活中，人的很多特质都符合正态分布，比如人的身高、体重、运动量、智力、收入、甚至信用情况等等。

模型构建、算法知识以及模型验收

只做大概介绍，后面会有专题详细介绍。

一个模型构建的整体流程，一共包括五个阶段，分别为模型设计、特征工程、模型训练、模型验证，以及模型融合。这五个阶段完成之后，模型就会交付到产品端了。

建模的过程实际上就是应用某个算法技术来实现一个模型的过程，这其中最重要的，就是我们选择的是什么算法。

模型相关技术名词

偏差：模型的预测结果和实际的结果的偏离程度。

欠拟合（高偏差）：如果偏差比较大，就说明模型的拟合程度比较差，也就是模型预测不准。造成欠拟合的原因可能是特征少或者模型训练不足。

方差：模型在不同测试样本上表现的稳定程度。

过拟合（高方差）：模型效果不稳定，在一部分数据上表现好，在另一部分数据上表现差。假设一个分类模型，在不同样本上测试，得到的 KS 值有时候是 20，有时候是 40，这就说明这个模型方差偏大，过拟合。造成过拟合的原因可能是特征过多或者训练集不够。

特征数据清洗：对数据进行清洗去掉重复值、干扰数据，以及填充缺失值。

除此之外，数据有时候还需要进行数据变换：处理成方便模型使用的数据形式。举个例子，我们需要使用用户的身高作为模型特征，但是有的数据是用厘米作单位，有的数据会使用米作单位。这个时候，我们就需要使用归一化，把数据的单位统一成米或者厘米。归一化也是数据变换最主要的手段。

训练集是让机器学习的样本集合，用来拟合模型。

验证集是模型训练过程中，用来对模型性能做初步的评估，用于模型参数调优。

测试集是最终用来评估模型效果的。

跨时间测试：也叫 OOT 测试，测量模型在时间上的稳定性。

回溯测试：用真实的、过去一段时间的数据，构造出一个模拟的环境（回溯环境），让模型在历史的那段环境中运行，得到历史某个时间点的模型结果。回溯测试在量化投资中的应用比较广泛。

联合建模：使用三方公司（如银联、运营商、电商）的数据，在对方的环境下部署一个模型，然后我们通过接口调用这个模型的结果，再把结果融合到我们自己的模型上。通过这种方式，可以弥补我们自有业务中数据不足的问题。但是联合建模会有一个弊端，就是当我们使用三方公司的数据建模之后，在调用的时候，必须传入一个主键来获得模型结果，这个主键如果是用户手机号，身份证号等敏感信息，就会有个人信息泄露的风险。

联邦学习：特殊的联合建模，或者一种分布式的模型部署方式。使用联邦学习之后，我们调用部署在第三方模型的时候，输入的就不是具体的业务数据而是模型参数，这样就不会有个人信息外传的风险了。目前，蚂蚁、腾讯、京东、微众银行，它们各自都有很成熟的联邦学习解决方案了。