一站式机器学习平台Deepthought的建设与初探


发展起源

爱奇艺除了在音视频、推荐等深度学习的AI应用以外,也有不少数据挖掘、数据分析的传统机器学习应用场景,例如用户预测、风控等。传统的研发模式的痛点,就是会给算法人员和业务人员一些不便利,具体如下:

1. 用户代码基于单机脚本实现,处理环节长、耦合高,难以修改和扩展,长久以来可读性降低;

2. 同一业务下多个场景、同一场景下多个模型,在数据处理、模型训练等技术流程上类似,场景重复步骤和数据结果难以重复利用;

3. 场景不同导致存在周期训练、定时预估、实时预估等需求,对业务人员和算法人员的代码要求高,维护成本高;

4. 算法人员和业务人员对分布式机器学习的开发存在技术壁垒,导致数据量和模型复杂度受单机资源限制;

基于以上痛点,爱奇艺开发了面向通用的机器学习场景的一站式机器学习平台Deepthought,可实现可视化交互,能更加直观便捷的搭建适合业务场景需要的架构,以及实时预估服务,是算法模型部署至实际业务的重要环节。


业务需求

Deepthought在开发之初即考虑了以下基本业务需求:

1. 核心算法基于分布式机器学习框架封装,以开源封装为主、自研实现为辅,满足快速上线基本算法需求;

2. 对于机器学习和数据挖掘各个环节解耦,满足不同环节的输出结果可复用;

3. 与大数据平台通天塔深度融合,利用通天塔管理的项目、数据、调度实现机器学习任务的在线、离线场景的执行;

4. 减轻用户代码开发压力,通过可视化交互和配置方式,实现机器学习任务的编排,提升算法模型搭建效率。

总体架构与发展历史

Deepthought至今已迭代到3.0版,具体详情如下:

  • Deepthought v1.0版,面向具体业务的机器学习平台

属于反作弊业务使用的机器学习平台,主要将反作弊业务中的机器学习流程各个阶段解耦合,同时管理反作弊业务中的业务数据,例如黑名单、样本、特征管理。Deepthought v1架构如下图所示。

Deepthought基于Spark ML/MLLib封装了业务常用二分类模型,以及常用数据预处理过程,例如缺失值填充、归一化等。

Deepthought v1更多工作在特征管理和数据配置中,更加偏向反作弊本身的业务。在v1对Spark的封装和流程解耦串式调度执行的方式在后续Deepthought版本中继承了下来。

  • Deepthoughtv2.0版,面向通用业务的机器学习平台

在v1.0的经验基础上做了通用化改进,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值