推荐系统大多基于用户行为数据分析的,而记录用户行为数据最简单的形式就是日志。
其实不止是推荐系统,搜索引擎和广告系统都有类似的概念。日志有如下几种:
原始日志
用户在一个网站上的各种行为会产生各种原始日志(raw log)。
展示日志
搜索引擎和搜索广告系统一次检索(一次PV)都会记录一个展示日志(impression log)。记录了查询和返回结果。
点击日志
当用户点击了展示结果(搜索的自然结果或广告),会记录一次点击日志(click log)。
会话日志
后端离线数据流系统会定期地采集展现日志和点击日志,进行归并,归并之后称之为会话日志(session log)。
值得补充的是,一次搜索肯定会有一次唯一的日志id。并且点击日志也会记录同一个id。这样才能达到两个日志归并的效果。
但是仅有唯一id还是不够的。因为一次搜索的返回可以是多个结果,但点击的只是其中一个。所以点击日志还需要额外的信息来标记是结果集中的哪一个,比如rank,或者其他可以用作join key的数据。
反馈行为
日志系统记录的信息,是供后续做推荐使用。用日志里的信息来给模型喂数据,从而训练模型,达到准确的预测和推荐能力。
日志中的用户行为:
根据反馈的明确性,可以分为显性反馈行为和隐形反馈行为;
根据反馈的方向分,可以分为正反馈和负反馈。
显性反馈就是网站上明显的点赞、踩或者评分,采用实时记录,数据库存储。
而隐形反馈则没那么明确,但量也更大。采用分布式文件系统存储,并且有延迟,并且只有正反馈!

Google Doodle:Qixi Festival 2019
本文探讨了推荐系统中用户行为数据的重要性,详细介绍了原始日志、展示日志、点击日志、会话日志及反馈行为日志等概念。通过记录用户行为,为模型提供训练数据,实现精准推荐。

514

被折叠的 条评论
为什么被折叠?



