推荐系统之实时性

最新推荐文章于 2024-06-17 10:26:21 发布

hionechance

最新推荐文章于 2024-06-17 10:26:21 发布

阅读量971

点赞数 1

分类专栏：《深度学习推荐系统》读书笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Needlyr/article/details/119181862

版权

《深度学习推荐系统》读书笔记专栏收录该内容

11 篇文章 1 订阅

订阅专栏

推荐系统的实时性，包括
1. 更快捕获/更新用户特征 -- 特征实时性
2. 更快发现数据趋势 -- 模型实时性

特征实时性（实时性由强到弱）
1. 客户端实时特征（秒级，实时）
发生在客户端session，实时计算用户特征，可达秒级

2. 流处理平台（分钟级，近实时）
典型的流处理平台像flink、spark streaming，均具备处理某个时间窗口内的数据流的能力，能够统计用户点击行为等特征，并写入redis，可达分钟级

3. 分布式批处理平台（小时/天级，非实时）
分布式批处理平台（spark, hadoop等）一般处理全量的数据，这个过程中，可能需要准备好并且join多张表，耗费几个小时到天不等。计算得到的特征一般有两个用途：1. 模型训练和离线评估 2. 特征保存到特征数据库，供模型在线推理

模型实时性（实时性由强到弱）
1. 在线学习
获得一个样本的同时，更新模型。经典的方案：FTRL

2. 增量更新
将新加入的样本喂给模型，进行训练，往往无法找到全局最优点，所以通常的做法是 n轮增量更新+1轮全量更新

3. 全量更新
在某个时间段，使用落盘的全量样本对模型进行训练。最常用的模型训练方式

4. 局部更新
将模型分为两部分，以较快频率更新需要快速迭代的部分，反之则以较慢频率更新。常见的方案为：预训练Embedding+神经网络，其中，预训练Embedding部分无需快速迭代，而上层神经网络部分更新需要较高的实时性。

书中提到，推荐算法工程师，应该：从用户的角度思考问题，构建模型，而不是仅专注于是否需要dropout，是否需要加BN层。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
推荐系统之实时性

推荐系统的实时性1. 更快捕获/更新用户特征 -- 特征实时性2. 更快发现数据趋势 -- 模型实时性特征实时性（实时性由强到弱）1. 客户端实时特征（秒级，实时）发生在客户端session，实时计算用户特征，可达秒级2. 流处理平台（分钟级，近实时）典型的流处理平台像flink、spark streaming，均具备处理某个时间窗口内的数据流的能力，能够统计用户点击行为等特征，并写入redis，可达分钟级3. 分布式批处理平台（小时/天级，非实时）分布式批处理平台（spark,
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。