点击率预测
一、 流程
1. 预处理
- 点击数据:海量,异构,不均匀,相依(数据之间存在依赖性),低质(比如看60min视频只看了3min)
- 豆瓣数据预处理:
- 对于400位用户打分的选择统计量(max,min,average等放入特征)
- 用户数据预处理:
- 视频数据预处理:
- 对于演员,获取出来,采用one-hot编码
- 观影数据预处理:
- 产生正例负例数据:观看时长大于5min为正例,否则为负例
- 基于矩阵分解计算用户-电影之间的偏好程度
- 基于上述产生的正例负例数据,构造用户-电影点击矩阵
- 运用NMF(非负矩阵分解)计算用户-电影相似度
- 基于相关电影计算用户-电影之间的偏好程度
- 根据以往看过的电影,根据待推荐电影和以往电影的相似度,计算待推荐电影的权重。
2. 特征选择
- 选择、组合特征
3. 点击率预测
- 需要效率很高
4. 视频投放
二、 研究现状
-
集成学习 :