王喆《深度学习推荐系统》推荐系统架构

最新推荐文章于 2024-02-29 14:31:23 发布

付泡泡

最新推荐文章于 2024-02-29 14:31:23 发布

阅读量776

点赞数

分类专栏：推荐系统

本文链接：https://blog.csdn.net/weixin_42661963/article/details/118709883

版权

4 篇文章 0 订阅

订阅专栏

对于用户来说，他在他此时浏览的每个软件场景下，能不能很快地获得让他感兴趣的信息，甚至会出现一些“惊喜”，让他知道，呀，这个好！

网络的产品、信息浩如烟海，每个人的喜好还不一样，有的人根本不知道自己喜欢什么，想要什么；有的人大概知道，但是本身就很犹豫；有的人确实比较坚定（比如我就想看看机械键盘，想买一个）。

所以，一个好的推荐系统要以尽可能全覆盖的满足每一个使用这个软件或产品的人，让尽可能全的人觉得，嗯，这里的内容挺好，竟然是个小机灵鬼，让我节省不少时间。

对于某个user，在特定的场景（context）下，针对海量“物品信息”构建一个函数，to 预测用户对特定候选物品们的喜好程度，再根据喜好程度进行排序，生成推荐的列表；并通过用户的行为及时的更新推荐列表。

注：推荐系统中的数据：

问题

如今主流数据处理框架是 flink做流计算，spark做全量数据批量处理，目前能形成真正的批流一体么？
1. 现在很难，但在往那方向走；
2. 历史遗留：以前只有spark，没用flink，很多公司的数据体系都是在spark基础上的，这就跟TensorFlow1的代码想改成TensorFlow2 也会有很多意想不到的问题。
3. spark本身也在发展，有flink的竞品spark streaming。而且spark社区和积累很成熟。
用户实时行为后，生成实时推荐列表的数据是如何走的？
1. 实时用户请求里边包含的特征一般是直接在服务器内部（很多用redis）提取出的，肯定不用再在数据流中重新走一遍。
2. 但线上请求数据最终会落盘到日志数据中。这时流处理批处理的平台会对这些数据进行处理，生成今后可供使用的特征及训练用样本。
一般来说，近线层处理好的数据、特征会存储到redis等内存型数据库供online service使用。

关注