互联网实时模型训练架构,到底是什么样子的?

好久没有写原创了,主要是平时事情太多,工作太忙,最近一直在给模型提供实时数据,真的是没时间静下心来写文章,也希望跟大家分享一下技术,咱们直接进入正题。

1、进入正题

各大互联网都会花重金打造他们的app首页,可以说是浓缩了全公司的精华,他们的算法团队也是精英中的精英。不是国内top4的计算机专业的根本没机会参与算法设计,我见到的大部分都是海归还有一些国内顶尖学校的算法高材生,首页算法推荐的好坏,会决定这家公司的市值(看看海外版的抖音,为啥值钱,全靠算法撑着呢)。

咱们拿京东的页面为例,简单分析一下。

2、开始分析

当我打开京东首页的时候,我已经被他的推荐广告深深的吸引住了,他怎么知道我想买个自行车????,他还知道我想买洗牙器和护肤品,高级呀

我先抛出来几个问题。

  • 我的用户行为数据,他存储在哪里?这些广告poi它是怎么获取的?

  • 他们是如何实时训练模型的?

  • 他们模型要求的时效性是多少?秒级还是毫秒级?

  • 如果模型异常了,是不是就乱套了,他们是如何保证数据稳定性的。实时训练和离线训练模型如何做召回排序打分pk的?

一般广告模型实时训练,都会对实时数据要求特别苛刻

  • 时效性高,一般要求延迟50ms-2s之间,不同的模型对时间要求就越低,比如用户登录页面的推荐广告,可能就要要求毫秒级返回,不然会影响模型预估用户的喜好。(作者最近在京东搜索了单车和洗牙器,我登录京东,就会立即给我推送这个。)

  • 数据维度多,模型好坏跟实时输入训练的数据有很大关系,好的算法工程师,他其实也是靠数据不断的尝试,才会训练出更适应当前场景的模型。

  • 数据维度容易多变,今天算法同学要3个维度指标,明天要10个维度数据指标。(维度越多,会出现什么问题?答案是:结果数据多,并且单独靠redis已经无法实现,所以需要借助doris这个利器)

  • 稳定性要高,你要知道你是给模型训练数据,任何异常的数据,都可能会把模型训练成傻瓜,你需要确保数据的准确性,监控报警一定要全面。(辛辛苦苦干了一年活,两三个事故,可能会丢掉你的劳动成果。

3、介绍架构

下面这张图是我现在使用的架构,非常简单。

 简单介绍一下:

  • kafka主要是我们接入的用户行为数据

  • mysql主要是获取运营的配置信息,主要是做实时交互,自动化,运营同学在web页面配置他想要的效果数据,我会实时查询mysql去解析运营想要的指标和计算口径,然后加工数据产出。(有时候运营想要什么活动页的数据,可以通过mysql广播到flink内,实时的检索运营要的数据,然后在报表上展示)

  • flink目前只是做数据清洗和维度关联使用,当然doris也可以替代flink做计算,把实时流数据直接从kafka导入到doris中做实时计算也可以。我目前大部分实时join的任务都放在了doris,少部分还是在flink。

  • redis主要是对接低延时的模型训练,要求50ms比较返回的

  • doris主要是对接1-2s延迟的模型训练,并且最牛的地方,这个doris支持sql查询,即使算法侧要求变化查询维度,我们通过sql修改可以快速支持,感觉非常nice,并且doris还支持各种聚合模型和物化视图,kylin虽然查询性能优秀,但难以支持schema随时变更,众多的维度也会造成Cube存储占用失控

4、学习交流

开始进行技术案例

  • flink我就不说了,肯定要学习一下,状态去重,广播这些都是要会的,自定义sink。。。我就不多说了,这些都是基本功。

  • doris一定要学习,目前doris虽然社群不会特别活跃,但是我坚信他后来肯定会火,因为我现在用着很舒服,可以快速开发业务报表需求,低延迟模型训练需求,就是一个开发利器,聚合模型,join模型(低shuffle模型,相同设备会放到同一个桶内,减少网络io,直接进行mapjoin)非常赞。

  • redis这个兄弟们一定要学习,这个真的是高阶必备,你想跟模型同学打交道,这个不会非常耽误事。

Flink学习资料:

直接看阿里巴巴免费提供的学习资料,pdf和视频都有,非常nice,我都想给他们平台捐钱了,真的是太公益了,讲师都是大佬

https://github.com/flink-china/flink-training-course/blob/master/README.md

Doris学习资料:

这个我是直接看的官网,不过官网的文档不是很齐全,大家如果找不到自己想要udf函数,可以自己开发一下或者咨询我,我帮你们问他们pmc????,除法是div(10 div 5 =2)他们的语法可能跟其他数据库有点不一样。大家还是多看开源文档,现在有这些公司在用doris了。

Redis学习资料:

案例大家两本书,销量一直霸榜的那种,同时这两本书设计的非常漂亮,送领导,送同事必备。初恋粉+蒂芙尼蓝(组合套装,非常赞)

《Redis设计与实现》资深 Redis 技术专家撰写,深入了解 Redis 技术内幕的必读之作。从源码角度解析Redis 的架构设计、实现原理和工作机制,为高效使用 Redis 提供原理性指导。

《Redis使用手册》本书系统化介绍Redis命令及其应用场景,内容深入,图文并茂,巨细靡遗,是掌握Redis的案头必备参考书。

关注小晨说数据,获取更多大厂技术干货分享

回复“spark”,“flink”,“中台”,“机器学习”,“用户画像”获取海量学习资料~~~


你也「在看」吗?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值