阿里的《基于pai的推荐系统》--摘抄笔记

最新推荐文章于 2024-07-11 15:47:53 发布

KryHan

最新推荐文章于 2024-07-11 15:47:53 发布

阅读量1.2k

点赞数

分类专栏：【推荐系统】文章标签：推荐系统

本文链接：https://blog.csdn.net/qiyihan/article/details/108748308

版权

【推荐系统】专栏收录该内容

15 篇文章 4 订阅

订阅专栏

推荐系统简介
- 一、什么是推荐系统
- - （一）常见的推荐业务场景
  - （二）个性化推荐业务流程
企业级推荐系统架构
推荐系统召回算法
推荐系统排序算法
推荐系统线上服务编排
- 一、在线推理服务 - 架构说明
- 二、线上多目标问题
基于 PAI 10 分钟搭建一个简单推荐系统
参考资料

企业级推荐系统架构

（一）企业级推荐系统要求

四个基本要求：
要求一、目标客户有百万级MAU的一个推荐业务需求的应用，机器学习领域数据量越大模型越精准。数据拆分可分为三种：用户行为数据、商品的行为数据、用户商品之间的交互数据。
要求二、有算法插件化部署的能力。
要求三、服务的性能问题（每次请求毫秒级反馈）
要求四、支持资源的弹性拓展
在这里插入图片描述

（二）推荐整体架构

在这里插入图片描述

（三）基于PAI的推荐技术架构

在这里插入图片描述

推荐系统线上服务编排

一、在线推理服务 - 架构说明

召回和排序这样的一个流程我们的方案是，基于高扩展弹性业务场景，采用阿里云 ACK 构建整体推理架构。
调用流程分为 3 步。
第一步，多路召回：物品协同过滤，语义召回，热门及运营策略召回取回上千条候选集。
第二步，曝光去重：基于该用户阅读历史，去掉已经曝光内容，去掉基于运营策略不能推荐的内容。
第三步，排序：推理模块调用排序过程时根据用户 ID 及物料 ID，获取用户特征及物料特征后，分批调用 PAI-EAS 服务返回排序结果。
在这里插入图片描述

二、线上多目标问题

   一种是说多模型解决多目标问题。假设就是点击和时长这两个目标，你可以有一套推荐召回模块专门针对点击。另一块专门针对使用时长去做训练。这两个结果你把它融合一下，得到最终的推荐结果。但代价就会比较大，你要同时维护两个系统，而且二者的比例也不好去量化。
   方案二是合并多目标成单模型，是目前采用得比较多的一个方案，也是效果相对来讲会比较好的一个方案。你把目标一和目标二这两个目标先融合成一个目标。比如说你把是否点击和观看时长按照一个比例去压缩下，把它都放到 0~1 之间。不点击就 0，点击就是 1。然后你把观看时长去做一个归一化，把整个时间都缩小到 0~1 的区间去。这样，你整个的区间就变成了 0~2，变成一个单目标的数值。这样的话你就可以针对这一个目标去训练你的召回、排序模型，从而拿到最终的结果。这样做的好处是你只需要维护一套推荐业务的建模流程，会比较方便维护，最后的效果也通常是方案二好一些

在这里插入图片描述

基于 PAI 10 分钟搭建一个简单推荐系统

一、个性化推荐业务流程

如何基于 PAI 去搭建一套非常简单的推荐系统：
这套推荐系统有两个特点。
第一是搭建非常方便，因为我们做了很多工具。
第二，这套系统是可扩展的。

推荐系统可以分为两个主要的模块。
第一个是召回模块，它做的事情就是初筛。
第二个是排序模块，按用户的偏好程度对 500 个新闻排序，就可以生成最终的推荐顺序。

在一个非常简单的推荐系统中，只有召回模块也是可以做推荐的。（上面有介绍过）

二、协同过滤

比如说召回领域有很多矩阵分解算法、协同过滤算法等等。（上面有介绍过）

三、推荐方案架构

完整的推荐架构如下图所示，包含如下部分：Dataworks，PAI-Studio，TableStore，PAI-AutoLearning，PAI-EAS。
在这里插入图片描述

四、实际操作

首先我们在 PAI-Studio 里基于你的原始数据生成你的协同过滤后的结果数据，
这是两张表。
接着我们在 TableStore，即表格存储里去把这两张表按照要求的格式建立出来。
然后利用 Dataworks 去把这个数据从 PAI-Studio 里灌到表格存储里。
接着在 AutoLearning 里去把 TableStore 的两个数据配置出来，配出来呈一个
策略。
然后最后把这个策略变成一个 PAI-EAS 的服务，你可以在这看一个调用方式。
最终用户拿到的结果就是这条服务。
如果想更新迭代里面的整个的数据，你就可以去改最原始的这张表。因为整套服务都可以做成一个自动化的流程，都可以利用 Dataworks 的数据调度系统去做成一个自动化的系统。所以你只要每天去更新这里的原始的数据就可以了，剩下来的业务都可以自动化。