召回离线评估指标(一)

居家办公一周了,上海疫情的“拐点”却迟迟未到,刚在小区楼下配合测完核酸,回到家里吃了口老坛酸菜面(不加酸菜包)冷静冷静。言归正传,今天想和大家聊聊推荐召回侧常用的离线评估指标。

(1).首先定义几个符号

@K: 用召回的TopK商品计算指标

RecSet: 策略召回的商品序列

BehSet: 用户未来N天有过交互行为的商品序列(N可以根据需要自行定义)

#(): 表示count()

MRR: Mean Reciprocal Rank

D+T: 表示从D天算起未来T天内

(2).离线评估指标

Percision@K

定义:#(RecSet ∩ BehSet) / #(RecSet)

意义:计算单个策略召回的商品序列的准确性

Recall@K

定义:#(RecSet ∩ BehSet) / #(RehSet)

意义:计算单个策略召回的商品序列的召回率

HitRate@K

定义:

在这里插入图片描述

意义: 对用户的命中率

MRR

定义:

在这里插入图片描述

意义:平均倒数排名,有考虑推荐结果的次序

用户覆盖率

定义:#(D活跃用户中能调用召回策略的用户)/#(D+T活跃用户)

意义:衡量一个离线策略的计算能否覆盖到大部分的活跃用户

商品覆盖率

定义:#(distinct D 策略召回商品) / #(D+T 商品库中所有商品)

意义:描述策略对物品发掘的能力

叶子类目丰富度

定义:#(distinct D 策略召回商品中叶子类目数量) / Count(D+T 所有商品叶子类目数量)

意义:衡量一个离线策略的计算结果的健康度

本文主要给大家介绍了percision、recall、hitrate、mrr、用户覆盖率、商品覆盖率、叶子类目丰富度等七种推荐召回侧常用的离线评估指标。另外还有几种常见的指标会在下一篇文章中为大家介绍,希望大家能持续关注。如果你喜欢我的文章或者我的公众号,记得分享、点赞、顺便点个在看再走哦!

欢迎大家关注微信公众号: 计算广告那些事儿,除了原创文章之外,也会不定期和大家分享业内大牛的文章哈!

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
一个比较复杂的电商离线数仓业务线可以是“商品推荐系统”,具体实现过程如下: 1. 数据采集:从电商网站、APP等渠道采集用户行为数据,包括用户点击商品、加入购物车、下单、支付等信息,同时采集商品的属性信息,如品类、价格、销量、评价等。 2. 数据清洗:对采集到的数据进行清洗,去除脏数据、重复数据、异常数据等。 3. 数据存储:将清洗后的数据存储到Hadoop集群的Hive表中,可以按照日期、用户、商品等维度进行分区。 4. 特征工程:基于存储的用户行为数据,构建用户、商品的特征向量。常见的特征包括用户的历史行为、商品属性、用户画像等。 5. 模型训练:使用机器学习算法,如协同过滤、矩阵分解等,对特征向量进行训练,得到推荐模型。 6. 推荐服务:将训练好的模型部署到线上,接收用户请求,根据用户的历史行为和商品特征,计算出推荐结果,并返回给用户。 7. 模型评估:对推荐模型进行评估,包括召回率、准确率、覆盖率等指标,根据评估结果不断优化模型,提高推荐效果。 需要注意的是,这个电商离线数仓业务线涉及到了多个领域的知识,包括数据采集、数据清洗、数据存储、特征工程、机器学习推荐系统等。实现过程需要涉及多个技术工具和编程语言,如Hive、Python、Spark等,需要有综合能力和团队协作精神。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值