推荐系统项目基础(一)推荐系统基本概念

经典的架构Lamda

大数据处理框架
在这里插入图片描述

在这里插入图片描述

Lambda 架构总共由三层系统组成:批处理层(Batch Layer),速度处理层(Speed Layer),以及用于响应查询的服务层(Serving Layer)。

批处理层使用可处理大量数据的分布式处理系统预先计算结果。它通过处理所有的已有历史数据来实现数据的准确性。这意味着它是基于完整的数据集来重新计算的,能够修复任何错误,然后更新现有的数据视图。输出通常存储在只读数据库中,更新则完全取代现有的预先计算好的视图。

速度处理层会实时处理新来的大数据。

举例来说:
广告投放预测这种推荐系统一般都会用到Lambda架构。一般能做精准广告投放的公司都会拥有海量用户特征、用户历史浏览记录和网页类型分类这些历史数据的。业界比较流行的做法有在批处理层用Alternating Least Squares (ALS)算法,也就是Collaborative Filtering协同过滤算法,可以得出与用户特性一致其他用户感兴趣的广告类型,也可以得出和用户感兴趣类型的广告相似的广告,而用k-means也可以对客户感兴趣的广告类型进行分类。即,通过批处理得到总体数据的分类模型。

在速度层中根据用户的实时浏览网页类型在之前分好类的广告中寻找一些top K的广告出来。最终服务层可以结合速度层的top K广告和批处理层中分类好的点击率高的相似广告,做出选择投放给用户。即,通过速度层通过实时数据进行处理得到实时的计算数据,与批处理层的数据同时进行处理。

推荐算法架构

在这里插入图片描述

召回阶段(海选)

召回是从全局的item库中选取和当前推荐被用户(根据用户属性,历史行为等信息)相关的一部分作为候选集。

召回阶段的意义:

召回阶段是整个推荐,搜索中的第一步骤,它的输出作为后续步骤(排序,策略调整)的输入,最终展示给用户的item数据是这个集合的子集。召回太多,导致后续的排序精细化排序过程计算压力大,用户被“读懂”的幸福感降低;召回太少,用户看到的内容太少,不利于用户和平台发生转化。所以召回决定着推荐,搜索的天花板。

排序阶段

CTR预估(点击率预估,使用LR算法)估计用户是否会点击某个商品,需要用户的点击策略。

策略调整

在这里插入图片描述

推荐系统的系统构建流程

  • 数据收集

    • 显形评分
    • 隐形数据
  • 特征工程

    • 协同过滤:用户-物品 评分矩阵
    • 基于内容:分词,tf-idf word2vec
  • 训练模型

    • 协同过滤
      • KNN
      • 矩阵分解
  • 评估,模型上线

推荐系统的评估

显示反馈与隐式反馈

在这里插入图片描述

准确度

通过RMSE与MAE进行评价,这个一般应用于离线进行分析。

召回率

覆盖率

信息熵,推荐的物品越多越好。

多样性与新颖性

往往会牺牲准确性。根据历史行为预测用户对某个产品的喜爱程度。

Exploitation&Exploration 探索与利用

Exploitation 开发利用,选择现在可能最佳的方案

Exploration 选择现在不确定的一些方案

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
如今大数据已经成了各大互联网公司工作的重点方向,而推荐系统可以说就是大数据最好的落地应用之一,已经为企业带来了可观的用户流量和销售额。特别是对于电商,好的推荐系统可以大大提升电商企业的销售业绩。国内外的知名电商,如亚马逊、淘宝、京东等公司,都在推荐系统领域投入了大量研发力量,也在大量招收相关的专业人才。打造的电商推荐系统项目,就是以经过修改的中文亚马逊电商数据集作为依托,并以某电商网站真实的业务架构作为基础来实现的,其中包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。具体实现的模块主要有:基于统计的离线推荐、基于隐语义模型的离线推荐、基于自定义模型的实时推荐,以及基于内容的、和基于Item-CF的离线相似推荐。整个项目具有很强的实操性和综合性,对已有的大数据和机器学习相关知识是一个系统性的梳理和整合,通过学习,同学们可以深入了解推荐系统在电商企业中的实际应用,可以为有志于增加大数据项目经验的开发人员、特别是对电商业务领域感兴趣的求职人员,提供更好的学习平台。适合人群:1.有一定的 Java、Scala 基础,希望了解大数据应用方向的编程人员2.有 Java、Scala 开发经验,了解大数据相关知识,希望增加项目经验的开发人员3.有电商领域开发经验,希望拓展电商业务场景、丰富经验的开发人员4.有较好的数学基础,希望学br习机器学习和推荐系统相关算法的求职人员

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值