摘自极客头条《一文了解Amazon推荐系统20年变迁》
原文链接一文了解Amazon推荐系统20年变迁
英文原文Two Decades of Recommender Systems at Amazon.com
亚马逊推荐系统20年
关键词:协同过滤 推荐系统 个性化
理念
为每个人打造专属商店
起始
1998年 基于物品的协同过滤推荐系统
优点:简单 易于理解 可扩展性强 高效 基于线下数据 快速更新 可解释性强
挑战:
实时可扩展性能 推荐质量
UserCF
适用于用户数的变化频率小于物品数的变化频率,ItemCF则相反
影响推荐质量的关键因素:相关度
推荐系统是对统计数据的应用,从随机性中发现规律
一个购买了1000件商品的用户总要比购买了20件商品的用户的被选中几率高50倍。所以从购买记录中随机采样得到的结果在用户维度上并不是均匀分布的,也就是说我们得到的是有偏的样本。对于任意物品X,购买了X的用户要比整体用户购买量更多
用户购买历史的非均匀分布,意味着在计算有多少购买了X的用户会随机购买Y时不能忽略是谁买了X
用户 浏览 与 购买 物品不同
低价物品:浏览并购买类似物品
高价值物品:浏览与购买差别较大
自我发现的数据模式优于人工
时间的重要性
邻近:买A之后5个月买B 关联度<买A的同时买B
方向性:买A之后买B 概率>买B之后买A
顺序性/连续性:在一段较短时间内连续购买一系列商品
季节性流行
冷启动问题:
新商品缺少足够的数据,计算相关性时处于劣势
新闻/社交信息推送:融合基于内容的算法(使用题目,主题和文本等)和基于行为的算法(使用购买,浏览和打分等)
购买内容的利用:
一本书提供的用户兴趣信息远比一双袜子(非出版物)多
因此,需要识别哪些购买能提供有用的推荐而哪些应该被忽略
多样性:为一位深度阅读爱好者推荐书籍之外的其他商品
意图的明确性:用户的购买意图很明确时,收窄推荐内容范围;当意图并不明确或确定时,探索性和新奇性应该是推荐的目标–>长期优化
推荐的未来
探索过程应该像和一位朋友聊天一样,这位朋友了解你,知道你的爱好,陪伴你的每一步,知道你的需求
未来的推荐系统将继续构建在计算机算法的基础上