爱奇艺 Opal 机器学习平台:特征中心建设实践

 01 

综述

Opal 是爱奇艺大数据团队研发的一站式机器学习平台,旨在提升特征迭代、模型训练效率,帮助业务提高收益。整个平台覆盖了机器学习生命周期中特征生产、样本构建、模型探索、模型训练、模型部署等在内的多个关键环节。其中特征作为模型训练的基石,其重要性不言而喻,如何让用户借助平台的能力,提升其业务侧特征迭代效率,从而达到预期的目标,是作为平台方需要思考的关键问题之一。在 Opal 中,特征生产、存储、访问等共同组成了特征中心的核心功能。本文将重点介绍特征中心相关工作。关于 Opal 的更多介绍,详见:Opal 机器学习平台:爱奇艺数智一体化实践

 02

特征中心是什么

简单来说,特征中心是用来生产、共享、管理机器学习模型特征的工具平台。算法工程师或数据分析人员可以在平台上方便的创建及分享特征,而平台侧协助解决特征生产和使用过程中碰到的各类问题,提高特征的迭代效率。

特征中心基本适用于所有需要特征的场景,典型的如推荐、广告、风控等场景。特征表注册在特征中心中,特征中心可以自动完成在线和离线表的构建,保证在线和离线的一致性,同时保证特征表只存一份的情况下,能够向多人共享特征,减少资源成本。另外特征中心还可以节省时间成本,原来需要复杂的 SQL 操作,比如导出训练表、数据导表等操作,现在在特征中心中都可以通过 Web UI 进行简单的拖拽式配置完成。

 03

特征中心解决的问题

算法模型本质上是一个映射函数,输入数值型的向量,输出是基于某个目标对候选集的排序。在爱奇艺场景中,离线训练时,算法工程师需要先从原始日志抽取出特征,并基于此构建训练样本;在线服务时,要根据端侧用户的用户 ID 和 视频 ID 查询出对应的原始特征,并根据 DSL 配置将原始特征转换为训练特征,最后调用预测服务得到预测值。

一般来说,想提高模型效果只能从以下两方面着手:

  1. 模型侧优化:  这是一种以优化模型结构、调优模型超参数为主的系统调优策略,通过调整参数不断优化模型的效果指标,我们将对应的优化称为模型侧优化;

  2. 数据侧优化:与模型侧优化相对应,这是一种以调整数据集质量为主的系统调优策略,通过改进数据质量来提升模型效果,在做数据侧优化时,可以认为模型是固定的。但实际业务中,人们往往很容易认为模型效果不好,是因为模型不好,但却忽略了数据集本身对模型效果的巨大影响。

业内有共识:"数据(特征)决定模型上限,模型结构及调参只是逼近这个上限",数据侧优化对整体效果提升的重要性不言而喻。那么如何让工程师高效地基于数据侧进行优化?答案是特征中心。平台需要能够解决数据侧优化过程中遇到的各类挑战:

  1. 如何应对海量的用户请求?爱奇艺拥有海量观影用户,对特征的访问又是极高频的操作,如何应对高 QPS 的请求是特征中心面临的挑战之一;

  2. 如何满足对特征的实时化要求?在广告、推荐、风控场景下,为保证算法模型的输出效果,对特征的实时性要求水涨船高;

  3. 如何提高特征的扩展性和灵活性?业务场景日益复杂,特征需求灵活多变。从基础特征到统计序列特征组的生产,从离线特征的简单统

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值