一站式机器学习平台Deepthought的建设与初探

爱奇艺技术产品团队

于 2020-06-12 19:00:00 发布

阅读量2.7k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38753262/article/details/106726535

版权

发展起源

爱奇艺除了在音视频、推荐等深度学习的AI应用以外，也有不少数据挖掘、数据分析的传统机器学习应用场景，例如用户预测、风控等。传统的研发模式的痛点，就是会给算法人员和业务人员一些不便利，具体如下：

1. 用户代码基于单机脚本实现，处理环节长、耦合高，难以修改和扩展，长久以来可读性降低；

2. 同一业务下多个场景、同一场景下多个模型，在数据处理、模型训练等技术流程上类似，场景重复步骤和数据结果难以重复利用；

3. 场景不同导致存在周期训练、定时预估、实时预估等需求，对业务人员和算法人员的代码要求高，维护成本高；

4. 算法人员和业务人员对分布式机器学习的开发存在技术壁垒，导致数据量和模型复杂度受单机资源限制；

基于以上痛点，爱奇艺开发了面向通用的机器学习场景的一站式机器学习平台Deepthought，可实现可视化交互，能更加直观便捷的搭建适合业务场景需要的架构，以及实时预估服务，是算法模型部署至实际业务的重要环节。

业务需求

Deepthought在开发之初即考虑了以下基本业务需求：

1. 核心算法基于分布式机器学习框架封装，以开源封装为主、自研实现为辅，满足快速上线基本算法需求；

2. 对于机器学习和数据挖掘各个环节解耦，满足不同环节的输出结果可复用；

3. 与大数据平台通天塔深度融合，利用通天塔管理的项目、数据、调度实现机器学习任务的在线、离线场景的执行；

4. 减轻用户代码开发压力，通过可视化交互和配置方式，实现机器学习任务的编排，提升算法模型搭建效率。

总体架构与发展历史

Deepthought至今已迭代到3.0版，具体详情如下：

Deepthought v1.0版，面向具体业务的机器学习平台

属于反作弊业务使用的机器学习平台，主要将反作弊业务中的机器学习流程各个阶段解耦合，同时管理反作弊业务中的业务数据，例如黑名单、样本、特征管理。Deepthought v1架构如下图所示。

Deepthought基于Spark ML/MLLib封装了业务常用二分类模型，以及常用数据预处理过程，例如缺失值填充、归一化等。

Deepthought v1更多工作在特征管理和数据配置中，更加偏向反作弊本身的业务。在v1对Spark的封装和流程解耦串式调度执行的方式在后续Deepthought版本中继承了下来。

Deepthoughtv2.0版，面向通用业务的机器学习平台

在v1.0的经验基础上做了通用化改进，

最低0.47元/天解锁文章

爱奇艺技术产品团队

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一站式机器学习平台Deepthought的建设与初探

发展起源爱奇艺除了在音视频、推荐等深度学习的AI应用以外，也有不少数据挖掘、数据分析的传统机器学习应用场景，例如用户预测、风控等。传统的研发模式的痛点，就是会给算法人员和业务人员一些不便...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。