Outline:
1.RS简介
2.RS评估
2.1评估指标
2.2评估方法
3.RS实践
3.1冷启动问题
3.2工业界RS架构
3.3学术界与工业界RS侧重点区别
1.Recommendation System简介
历史
90年代,门户网站往往采用分类目录等形式,因为内容的稀少,用户往往一眼都能看清所有的产品,可以选择项。例如Hao123,Yahoo这类网站会在首页覆盖少量的热门网站。
00年代,通过搜索词明确需求,例如 Google,Baidu
10年代,这时会存在一个信息过载的状况,那么就需要一个推荐算法,通过分析用户的历史行为为用户的兴趣建模,来匹配人和信息,从而主动为用户推荐,例如Taobao, Amazon
搜索 vs.推荐
搜索与推荐本质上存在一些区别,但也有一些相似之处。
搜索 | 推荐 | |
---|---|---|
行为方式 | 主动 | 被动 |
意图 | 明确 | 模糊 |
个性化 | 弱 | 强 |
流量分布 | 马太效应 | 长尾效应 |
目标 | 快速满足 | 持续服务 |
评估指标 | 简明 | 复杂 |
在搜索过程中,用户是主动采取的搜索动作,搜索时的意图也是很明确的,就是为了理解或者是得到一些特定的知识/信息。对于一个搜索引擎,它所获得的流量分布是符合头部效应的(马太效应:强者愈强、弱者愈弱的两极分化现象)。此外,值得注意的是,搜索结果的评估指标是很简明清晰的。例如通过搜索,人们点击了一个网站,对该网站进行深度浏览后,便不再点击此网站后的其他网站。那么用户大概率是获得了所需要的信息。
而推荐对于我们商业系统而言是主动的,对于用户则是被动接受的。此时用户对于系统的使用意图也是相对模糊的,我们不知道用户浏览我们相关推荐时,是想选择怎样的商品,想观看怎样的视频。甚至用户本人可能也不知道自己的兴趣究竟在哪儿。
推荐系统的流量分布则是符合power-law分布的。power-law分布也就是常说的幂律分布,在电商平台上,往往体现为那些畅销的商品,这样的商品往往多数卖家会进行备货销售。
而长尾处,同样也是某些特定客户群需求存在的地方。长尾处的用户群,是从广义上看来“不那么畅销的商品”的目标用户,但这也是推荐系统需要关注的目标。
一个软件的用户数据会随着用户对软件使用时间的增长而增长,因此一个好的推荐系统会不停地运用埋点获得的数据,持续训练系统,从而更好地服务于用户。长久地薅羊毛:)
推荐系统的评估指标是复杂的,这个在稍后会展开来说,具体的指标以及他们的含义。
马太效应(头部效应):
长尾理论:
推荐与搜索的关联:(搜索也会推荐一些相关的搜索词,推荐搜索词的相关书籍、相关技术等)
因此综上
推荐系统存在的前提:
1.现今信息过载的情况
2.用户需求不够明确
推荐系统的目标:
1.高效连接用户与产品,发现长尾商品(academic)
2.留住用户与内容生产者,实现商业目标(industrial)
industrial推荐系统评估时——需要考虑三方
industrial与academic的RS,最大的区别存在于:
academic的RS建模时可能更注重与用户方的体验,而industrial的RS要考虑下图三个方一起的均衡利益
常用的RS评估指标:
1.准确性:准确匹配用户兴趣,满足用户的模糊需求
2.覆盖率:发掘长尾,使得更多内容生产者获得流量
满意度:用户满意度,更高层次的指标
信任度:百度一些医院,信任度低
实时性:新闻出了后多快能推荐出来,用户兴趣发生变化了后多久能推荐
鲁棒性:Robust
多样性/新颖性/惊喜度:不能一直是同类商品
可扩展性:客户群增加
商业目标:不同公司商业目标可能不同
用户留存:(学术界很少考虑,但工业界很重要的指标)用户留下来才能持久薅羊毛
用户反馈的 Explicit vs Implicit
Explicit 显式反馈 | Implicit隐式反馈 | |
---|---|---|
例子 | 电影评分(是否喜欢这个推荐) | 播放、评论、下载、购买 |
准确性 | 高 | 低 |
数量 | 少 | 多 |
获取成本 | 高 | 低 |
显式反馈是目前很难获取的一种反馈形式,我们不可能在用户看完每一个抖音短视频后都弹出一个评分框,邀请用户评分。但拥有较高准确性。
而隐式反馈则较好获取,虽然准确性较低,但每一个使用系统的用户都会产生相应的用户行为数据来提供隐式反馈
1.准确性(学术界)
1).评分预测
RMSE、MAE等
2).TopN推荐
Precision Recall等
准确性(工业界)
考虑一下银行:以购买手机银行上的理财产品为例
点击–>浏览深度/时常–>加购/收藏/分享–>购买–>再次购买,增加投资额
2.覆盖率: