这是一篇比较经典的item based的协同推荐方法。对公式介绍比较全面。
文章介绍了3个相似度计算公式:
1。余弦相似度公式
2。基于相关系数的相似度公式
这个公式主要是为了避免某个item打分普遍比较高的情况下,利用item的均值对评分进行处理。
3。调整的余弦相似度公式
该公式与上式的区别在于用用户的均值进行调整,避免某个用户总是倾向于打低分或者高分的情况。从最后的实验结果表明,这个公式的MAE值最小,推荐效果做好。
对于评分预测的公式,文章采用了如下公式:
将active user对当前item的评分作为当前item的邻居item的权重对相似度进行调整,预测最后的得分。
另外一种方法是基于回归模型的,主要是修正了上述公式采用“active user对当前item的评分作为当前item的邻居item的权重”的方式,采用了线性回归模型的方式进行预测。
其中 是回归模型的误差,
和
的确定方式不太清楚,文章一笔带过了,比较郁闷。
查下资料,基本的一元线性回归求解过程如下:
1、简单线性方程式:y=a+bx
2、变量y不仅受x的影响,还受其他随机因素的影响,因此通过相关图,可以直观地发现各个相关点并不都落在一条直线上,而是在直线上下波动,只呈现线性相关的趋势。
3、我们试图在相关图的散点中引出一条模拟的回归直线,以表明两变量x与y的关系,称为估计回归线,回归方程:yc=a+bx
yc—y的估计值 a—纵轴截距
b—回归系数,代表自变量增加一个单位时因变量的平均增加值。
4、计算a、b值
当实际值y与估计值yc的离差平方和为最小值时,则此直线为最优的理想直线