推荐系统学习笔记——五、推荐系统通用技术架构

五、推荐系统通用技术架构

一个大量借鉴Netflix架构的推进系统架构。其 数据流图 如下:
在这里插入图片描述

数据源

系统的数据源,主要有 三个:

  • 前端的打点日志,以Kafka流形式的数据
  • 物品内容数据:存储在MySQL中的业务的物品本身的内容数据,如id、标签、图片等等
  • 来自web系统的用户画像数据,存在Hbase,包含两类:
    • 用户自身的人口属性的数据,性别、年龄、职业
    • 根据用户历史行为,算出用户偏好的数据

前端的打点日志进入kafka流之后,有两个分发

  • 一个进入近线计算层,主要是Spark Streaming(近线层
    • 接收的有3个输入:
      • 打点日志
      • HIVE中的离线历史数据
      • 离线训练好的预估模型。
    • 可以在近线层完成他们的耦合和计算,在秒的级别实现了海量数据、机器学习模型以及实时性的组合 。
    • 计算结果有3个:
      • 用户或者物品的特征向量
      • 给用户更新的排序列表
      • 召回索引
  • 一个进入Hadoop的HDFS,进行存储(离线层
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值