《推荐系统实践》笔记:用户行为数据与日志

本文探讨了推荐系统中用户行为数据的重要性,详细介绍了原始日志、展示日志、点击日志、会话日志及反馈行为日志等概念。通过记录用户行为,为模型提供训练数据,实现精准推荐。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

推荐系统大多基于用户行为数据分析的,而记录用户行为数据最简单的形式就是日志。

其实不止是推荐系统,搜索引擎和广告系统都有类似的概念。日志有如下几种:

原始日志

用户在一个网站上的各种行为会产生各种原始日志(raw log)。

展示日志

搜索引擎和搜索广告系统一次检索(一次PV)都会记录一个展示日志(impression log)。记录了查询和返回结果。

点击日志

当用户点击了展示结果(搜索的自然结果或广告),会记录一次点击日志(click log)。

会话日志

后端离线数据流系统会定期地采集展现日志和点击日志,进行归并,归并之后称之为会话日志(session log)。

值得补充的是,一次搜索肯定会有一次唯一的日志id。并且点击日志也会记录同一个id。这样才能达到两个日志归并的效果。

但是仅有唯一id还是不够的。因为一次搜索的返回可以是多个结果,但点击的只是其中一个。所以点击日志还需要额外的信息来标记是结果集中的哪一个,比如rank,或者其他可以用作join key的数据。

反馈行为

日志系统记录的信息,是供后续做推荐使用。用日志里的信息来给模型喂数据,从而训练模型,达到准确的预测和推荐能力。

日志中的用户行为:

  • 根据反馈的明确性,可以分为显性反馈行为和隐形反馈行为;

  • 根据反馈的方向分,可以分为正反馈和负反馈。

显性反馈就是网站上明显的点赞、踩或者评分,采用实时记录,数据库存储。

而隐形反馈则没那么明确,但量也更大。采用分布式文件系统存储,并且有延迟,并且只有正反馈

Google Doodle:Qixi Festival 2019

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

果冻虾仁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值