【推荐系统笔记】-1.排序服务相关

来自深度之眼的课程学习笔记

精排服务框架介绍

推荐系统架构

推荐引擎
|
召回服务【特征服务、向量服务】(离线hive数据平台、找回任务管理平台、离线召回结果存储)
|
频控服务
|
粗排服务
|
排序服务(数据流服务【特征服务】、排序模型训练平台【参数服务】、模型部署平台)
|
机制服务

召回候选集通过粗排等不断减小,排序服务就是精排阶段,进行top-k输出
排序服务,拿到用户以及召回的一些列数据,通过模型预估,拿到每个模型参数,计算出推荐分数,推荐给推荐引擎

框架流程图

任务调度:任务监控平台、任务定时管理
排序服务:FM排序模型、DNN排序模型、DeepFM排序模型
引擎:请求
机器学习平台:数据流服务,排序模型训练平台、模型部署平台
特征服务:item特征、user特征
参数服务:key-value结构数据
简单来说就是,先搭建平台,然后通过模型训练,最后进行排序输出

排序服务相关-机器学习平台

数据流服务:产生训练所需的训练样本
训练平台:模型开发和训练的统一平台
模型部署平台:负责各种模型的文件的部署后用于线上预估

数据流服务

离线:日志数据—>数据流统一处理平台---->按小时或者按天训练数据---->离线训练
在线:日志数据—>数据流统一处理平台---->按batch组织数据---->在线训练
CTR-----点击为正样本/未点击为负样本(点击行为–曝光行为)

排序模型训练平台

---->离线训练---->离线训练平台---->离线模型文件
---->在线训练---->在线训练服务---->Ps/在线服务

模型部署平台

---->离线模型文件👇
---->开启预估服务服务
---->Ps/在线服务👆

排序服务相关-参数服务器

分布式机器学习分成两部分,及参数和训练
对于大型的算法,比如DNN、CNN,参数上亿的时候,自然需要一个集群俩存储这么多的参数,因而,参数服务器就是专门用来存储这么多参数的服务。
训练部分自然是并行的,不然无法体现分布式机器学习的优势。因为参数服务器的存在,每个计算节点在拿到新的batch数据后,都要从参数服务器上取下最新的参数,然后计算梯度,再将梯度更新会参数服务器。
小样本---------一台或不用
大规模样本-----------使用参数服务器–分布式
参数服务器通常对外提供两个方法:push和pull
在参数服务中,参数都是可以被表示成(key、value)的集合,key就是feature ID,二value就是他的权值。
把参数表示成k-v,形式更自然,易于理解,更易于变成理解。workers跟servers之间通过push与pull来通信,worker通过push将计算好的梯度发送到server,然后通过push从server更新参数。

DNN/DeepFM排序模型实践

电商推荐排序线上模拟

总结

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KryHan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值