《推荐系统实践》读书笔记(一)(概述)

一.

A. 搜索引擎(依靠搜索词;适合用户有明确目的时)VS 推荐系统(依靠用户历史行为;适合用户无明确目的时)

推荐系统可以发掘物品的长尾

将用户和物品关联的3种方式:

1. 社会化推荐(基于好友):直接问好友或者让网友给自己推荐;

2. 基于内容的推荐:根据用户的注册信息,或者用户喜欢的物品(使用物品的属性),推荐相似的物品;

3. 基于协同过滤:User-CF, Item-CF

 

B. 案例:

1. 亚马逊商城:

个性化推荐:给出推荐理由;基于物品内容的推荐(自己之前购买/收藏/点击了哪些物品,推荐和那些物品“像”的);

基于好友的推荐:拿到用户的Facebook好友关系,推荐好友喜欢(购买/收藏/点击)的物品;

相关商品列表:购买/浏览了这个物品的用户们,经常购买的其他物品们;(也就是Item-CF); 打包销售有折扣;

20%~30%的销售来自于推荐系统;

2. 电影/视频网站:

Netflix, Youtube: 基于物品内容的推荐(之前看了/评高分了哪些电影,就推和那些电影“像”的)

Netflix宣称60%的用户通过推荐系统找到自己喜欢的电影;

3. 个性化音乐网络电台:(只有<喜欢,不喜欢,跳过>这3个按钮)

Pandora: 请音乐家来对所有歌曲进行标注(旋律,节奏,编曲,歌词等);基于物品内容的推荐;

Last.fm: 无标注,基于用户历史行为,允许好友之间互相推荐歌曲;

4. 社交网络(Facebook):

基于好友的推荐:给用户推荐他的好友们最喜欢的物品;(开放了API给别的网站使用)

朋友圈的排序:Facebook使用EdgeRank算法,使用户尽量看到最熟悉的好友的最新会话;(和微信朋友圈纯按时间排序不同)

给用户推荐好友;

5. 个性化阅读:

Google Reader: 基于好友的推荐(自己关注的人们分享的文章)

Zite: 收集用户对文章的<喜欢/不喜欢>反馈,纯依靠用户行为来个性化推荐;

Digg: User-CF(根据用户行为,找出和自己兴趣相似的用户们,推荐他们喜欢的文章)

6. 基于位置

推荐附近周边的东西;推荐好友们在附近周边喜欢过的东西;

7. 邮件优先级:

Gmail: 根据用户对邮件的历史行为,计算每个邮件对该用户的优先级,高的排到前面(可为用户节省6%的时间)

8. 个性化广告:

推荐系统(给用户推荐广告) VS. 个性化广告(给广告推荐受众人群)

3类广告:上下文广告(根据网页内容在侧边栏显示);搜索广告(根据搜索框里输入的内容,在结果列表里显示);个性化展示广告(大横幅图片;根据用户兴趣定向投放的;(雅虎重点搞这个,发了很多论文))

Facebook掌握了大量用户兴趣,所以个性化广告方面很成功!

 

C. 好的推荐系统,要兼顾3方面利益:1. 用户(推荐用户感兴趣的);2.物品主/广告主(不能只推那几家大的);3.自己公司(收集数据不断完善推荐效果,增加点击率和转化率提升收入)

评测方式:1. 离线实验;2.用户满意度调查问卷;3.线上AB测试;

 

D. 评价指标:

1. 用户满意度:可问卷调查;也可通过转化率、点击率、用户停留时长等指标衡量;

2. 准确度:评星的则用RMSE或者RAE;0/1的则用Precision、Recall、F1-score、AUC; (AUC的好处不需要定下来阈值就能衡量模型的排序能力,且不受正负样本比例不平衡的干扰

3. 覆盖率:给所有用户推的物品的并集大小/物品全集大小;反应出长尾物品的推荐力度;也可用给所有用户推的物品的次数,求或者基尼系数,来衡量这个推荐的分布均衡否;

    马太效应:强者越来越强,弱者越来越弱;协同过滤等很多推荐算法都会有马太效应;

4. 多样性:一个推荐列表,可以用物品两两相似度的平均值,得到相似性,再用1-相似性,得到多样性;所有推荐列表的多样性的平均值,就是整个推荐系统的多样性;(要和准确度保持平衡)

5. 新颖性:必须把已经推荐过的不要再推;越不热门的物品,越新颖

6. 惊喜度:推荐和用户历史兴趣不相干的电影,用户看之前觉得一般,看完后觉得满意,就是惊喜;

7. 信任度:用户越新任该推荐系统,越会多用,收集到的用户反馈就越多,也就越能捕捉到用户兴趣,良性循环;提高信任度的方式:a. 提供推荐解释; b.利用用户好友信息做推荐和解释;

8. 实时性:a.用户行为发生后能否快速更新推荐列表;b.新上物品能否快速进入用户的推荐列表(物品冷启动能力)(指标:一天内新上的物品有多少被推荐出来了);

9. 健壮性:反作弊能力;(作弊:雇一批人给自己的电影评高星;雇一批人注册很多账号同时购买某热门商品和自己的商品)指标:模拟作弊,评测作弊前和作弊后的推荐列表变化;如何提高:a.尽量使用代价高的行为;b.使用数据前先进行攻击检测(反作弊),过滤数据;

10. 商业目标:点击率、转化率、收益;

离线优化的目标:确保覆盖率、多样性、新颖性均大于各自bar的前提下,最大化准确度

 

E. 评测维度(衡量推荐系统在不同角度下的效果)

1. 用户维度:不同年龄、男女、地域、活跃度、新老用户;

2. 物品维度:物品的属性、流行度、平均分、是不是新加入物品;

3. 时间维度:季节、工作日/休息日、白天/晚上;

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值