AI产品经理工作全流程详解（下）：数据准备、模型构建

AI女王

已于 2024-09-19 12:50:07 修改

阅读量924

点赞数 13

文章标签：人工智能产品经理 agi ai 大模型 AI大模型

于 2024-08-04 14:00:00 首次发布

本文链接：https://blog.csdn.net/m0_56255097/article/details/140878919

版权

四、数据准备

对于算法同学而言，他只能根据现有的数据分析哪些特征对于模型有用，但是，AI产品经理对业务理解更深，通过判断哪些数据、哪些特征对模型提升有帮助，把自己想到的要点和技术沟通，得到更完善的数据集，再动手去获取数据。

比如该用户是否主要在夜间活动？操作频率是否过高？短时间内同一台终端是否登录过多个用户？用户是否触发过新手引导？

尽可能准确的找到羊毛党用户的特征，对模型质量的提升会有极大的帮助。

获取数据时，主要分为以下三类（有时也可与其他公司联合建模）：

1、内部业务数据

如果以前业务有相关数据，那么我们可以从以前业务保留的数据中选取使用；如果当前没有相关数据，而我们有相关业务可以获得数据，我们通过增加埋点的方式将数据留存。

2、跨部门数据

其他部门数据或统一的中台数据，这些数据需要我们根据公司的数据管理规范流程提取，在数据提取的时候注意筛选有效数据。

3、外采数据

根据我们的需求向外部公司购买数据。我们需要了解市场上不同公司都可以提供什么数据，比如：极光、友盟提供的是开发者服务，所以他们可以提供一些和App相关的用户画像，比如运营商可以提供上网流量、话费等相关数据。

进行外采数据需要注意两点：外采公司的资质审核、采集数据的合法性（需要考虑数据安全和消费者隐私保护）。

五、模型构建

模型构建的具体流程如下：

1、模型设计

模型设计阶段，我们需要考虑该选择什么样的算法，目标变量应该怎么设置、数据源应该有哪些、数据样本如何获取，是随机抽取还是分层抽样。

a.算法选择

于其需求定义，模型需要计算出用户是薅羊毛用户的概率，并根据概率高低分为正常、疑似、高危三类，最终技术同学决定采用逻辑回归算法来实现该需求。

逻辑回归算法具有计算速度快、可解释性强的优点，适用于解决需求中的多分类问题，而且还可以对用户“为什么封号”的质疑，有较强的解释性。

b.定义目标变量及抽取数据样本

在模型设计阶段最重要的就是定义模型目标变量，以及抽取数据样本。

不同的目标变量，决定了这个模型应用的场景，以及能达到的业务预期。

样本是用来做模型的基础。在选取样本的时候，你需要根据模型的目标、业务的实际场景来选择合适的样本。必须要考虑季节性和周期性的影响。另外，还要考虑时间跨度的问题。建议你选择近期的数据，并结合跨时间样本的抽取，来降低抽样的样本不能描述总体的这种风险。

2、特征工程

所有模型的输入都是数量化的信息（用向量、矩阵或者张量的形式表示的信息），所以我们需要通过某种方式，把各种类型的数据转化成数量化的信息，这个过程就是特征工程。

特征工程是模型构建过程中最重要的部分，如果我们可以挑选到足够优质的特征，不仅可以提升模型性能，还能降低模型的复杂度，（当选择了优质的特征之后，即使你的模型参数不是最优的，也能得到不错的模型性能，你也就不需要花费大量时间去寻找最优参数了，从而降低了模型实现的复杂度。）大幅简化构建过程。

数据和特征决定了模型的上限，而模型和算法只是逼近这个上限而已。

以薅羊毛项目为例，我们可以通过用户是否在夜间活动、操作频率、历史订单、完成活动速度、同一台终端是否登录多个账号等一系列特征，来表达是薅羊毛用户的可能性，这就是建立了薅羊毛用户的特征工程。我们可以通过这些特征来判断用户的可疑程度。

特征过程包括以下四个流程：

1. 数据清洗

数据清洗主要是算法工程师要做的工作，数据预处理的重要环节，主要是对数据进行重新审查和校验，检查数据一致性、处理无效值和缺失值等。

来解决这些数据可能存在的数据缺失、有异常值或无效值、数据不均衡（比如前面部分数据表现好，后面部分数据表现不好）、单位不一致等问题。

对数据缺失，算法工程师可以通过删除缺失值或者补充缺失值的手段来解决它。

对于数据不均衡的问题，因为数据偏差可能导致后面训练的模型过拟合或者欠拟合，所以算法工程师取数据时需要考虑均衡问题。

2. 特征提取

从原始数据中提取有用的特征，将其转化为一组更具代表性和可解释性的特征。特征提取的目的是减少原始数据的维度，提高数据的表达能力，帮助算法进行更好的完成任务。

一般提取出的特征会有 4 类常见的形式，分别是数值型特征数据、标签或者描述类数据、非结构化数据、关系型数据。

数值型特征： 如消费金额、好友人数、浏览页面次数等（相关的业务操作数据、运营数据）。一般来说，会首先提取主体特征，再提取其他维度特征。

标签或描述类特征： 如有房、有车、高付费，用来打标签。

非结构化特征： 如内容评论，需要判断是否有负面情绪。非结构化数据一般存在于 UGC（User Generated Content，用户生成内容）内容数据中。提取非结构化特征的一般做法就是，对文本数据做清洗和挖掘，挖掘出在一定程度上反映用户属性的特征。

关系型数据特征： 如通讯录、收获地址、商品分享（一般分享给亲朋）、LBS位置信息等维度数据。比如说，在京东购物时，你和一个人在同一收货地址上，如果这个收货地址是家庭地址，那你们很可能就是家人。

3. 特征选择

特征在选择时主要有覆盖度、IV 值（信息价值）、稳定性等指标。

LV值指的是表示特征对目标预测的贡献程度，LV值有限定条件，一是面向的任务必须是有监督的任务；二是预测的模型必须是二分类模型。

4. 生成训练集和测试集

算法同学为了给模型训练做最后的准备，需要把数据分成训练集和测试集，他们会使用训练集来进行模型训练，会使用测试集验证模型效果，

3、模型训练

模型训练是通过不断训练、验证和调优，让模型达到最优的过程。就是要找到一个划分条件（决策边界），使得准确率（拟合）最高的同时兼顾稳定性（泛化性能）。这里涉及几个名词需要理解：

a、决策边界

那么怎么达到最优呢？就是要绘制一条比较好的决策边界。

决策边界：就是在符合某种条件做出某种选择的条件，根据这个条件可以将结果进行划分。比如说：下午6：00不写完这篇博客我不吃饭，那么写完了就去吃，没写完就不吃。这个条件就是我们说的决策边界。

决策边界分为：线性决策边界和非线性决策边界。下图中，图1为线性决策边界，图2、图3为非线性决策边界。

决策边界曲线的平滑程度和算法训练出来的模型能力息息相关。曲线越陡峭模型的测试精度越准确（可以理解为不是一刀切），但是越陡峭的曲线模型越不稳定。

b、拟合与泛化

模型的“最优”，指的是模型拟合能力和泛化能力的平衡点。

拟合能力：模型在已知数据上（训练集）表现的好坏
泛化能力：模型在未知数据上（测试集）表现的好

如果想让模型有足够好的拟合能力，就需要构建一个复杂的模型对训练集进行训练，但是模型越复杂就会越依赖训练集的数据，就越可能出现训练集的表现很好，但在测试集上表现差的情况，泛化能力比较差，这种情况叫做“过拟合”。

如果想让提高模型的泛化能力，就要降低模型复杂度，减少对训练集的依赖，但如果过度降低复杂度，又可能导致“欠拟合”的情况。

过拟合：模型把数据学习的太彻底，甚至把噪声数据的特征也学习到了，就导致不能很好的识别未知数据，模型泛化能力下降。训练集表现很好，但是测试集很差。读的是“死书”，并没有真正掌握书里的精髓，自然就无法很好的应用了。产生过拟合的原因一般有：特征过多，模型复杂度过高，样本数据无法代表预定的分类，样本噪音干扰过大等。
欠拟合：模型不能很好的捕捉数据特征，不能很好的拟合数据。在训练集的表现就很差，需要继续努力“学习”。产生欠拟合的原因一般有：模型复杂度过低、特征量过少等。