推荐系统内容
文章目录
1. 推荐系统设计
1.1 架构
用户服务 => 行为反馈 => lambda架构数据挖掘 => 推荐算法产出 => 用户服务
1.2 lambda架构
1.2.1离线计算
- hadoop
- spark core, spark sql
- hive
1.2.2 实时计算
- spark streaming
- storm
- flink
1.2.3 消息中间件
- flume 日志
- kafka
1.3 推荐算法架构
召回 —— 排序 —— 策略
1.4 推荐模型构建
- 数据收集
-
- 显性数据
- 用户rating
- 用户comment
- 用户 subscribe
- 收藏
- 转发
-
- 隐形数据
- history orders
- cart events
- page view
- click
- search history
- 特征工程
-
- 协同过滤 user-item 矩阵
-
- 基于内容
- 训练模型, 上线
1.5 推荐系统的评估
评估指标
- 准确度 系统信任度
- 多样性 可扩展
- 覆盖率 鲁棒
- 新颖性 商业目标
- 惊喜度 用户留存
EE 问题 (exploit && explore)
EE 问题实践
- 兴趣扩展 :相似话题, 搭配推荐
- 人群算法:userCF聚类
- 个性化与热门推荐比例平衡
- 模型参数随机噪声扰动
- 用户历史随机丢弃
评估方法
- 离线 问卷 少数
- 在线: 灰度发布 ABtest 50%全量上线
推荐系统冷启动
- 用户冷启动
- 收集用户特征
- 注册信息: 地域,年龄, 性别
- 设备信息
- 社交信息, 安装来源 , 推广素材
- 引导用户填写
- 使用第三方site行为数据
- 新老用户策略差异
- 新用户冷启动倾向于热门TOP ranking, 老用户着重长尾推荐
- EE的力度
- 单独的模型和特征预估
- 收集用户特征
- 物品冷启动
- tagging
- 投放和该物品相似的用户
- 系统冷启动
- 早期基于内容
- 转为协调过滤
- EE的力度
- 单独的模型和特征预估
- 物品冷启动
- tagging
- 投放和该物品相似的用户
- 系统冷启动
- 早期基于内容
- 转为协调过滤
- 加权