基本任务
解决信息过载,发掘用户兴趣
用户行为数据
eg:小明早上9点打开了亚马逊,先是浏览了首页,点击了几个热销的西装链接,然后在搜索栏输入了nike篮球鞋,在浏览了8双球鞋后,看了一些购买者的评价,最终选定了air jordan的最新款。
将这条行为拆分成设定好的数据块,再以一定的数据结构,存储到亚马逊的用户行为数据仓库中。
冷启动问题
定义:没有大量且有效的用户行为数据,利用商品本身的内容数据
**内容数据:**eg,商品tag(类),商品名称(关键字相似),同店家的热门商品,经验(啤酒尿布)
局限:比如:小明在网上搜索过保时捷汽车模型。然后推荐系统根据关键字,给小明推荐了价值200万的保时捷911
user-item 用户偏好矩阵
有用户行为数据时,形成用户偏好矩阵。
数据清理
产生原因:当我们开始有意识地记录用户行为数据后,得到的用户数据会逐渐地爆发式增长。
其中最核心的工作,就是减噪和归一化:
减噪:用户误操作等
降维算法——SVD奇异值分解
提出背景:随着物品数量的增多,用户偏好矩阵变得稀疏。
解决方法:通过对矩阵相乘不断的拟合,参数调整,将原来巨大的稀疏的矩阵,分解为不同的矩阵,使其相乘可以得到原来的矩阵。
协同过滤算法(collaborative filtering)
可以算出两个相似度:user-user相似度矩阵; item-item相似度矩阵。
计算相似度的具体算法,大概有几种:欧几里得距离,皮尔逊相关系数,Cosine相似度,Tanimoto系数。
LR逻辑回归
LR逻辑回归分为三个步骤:
- 提取特征值
- 通过用户偏好矩阵,不断拟合计算,得到每个特征值的权重
- 预测新用户对物品的喜好程度
持续改进
ABtest