这章内容看起来像数据清洗,应该不难,就是整理数据方便后面算法使用。OK,开始!!!好兴奋!!!
一. 用户物品矩阵
没什么好说的,非常Intuitive。
左边那一列是人名,上面那一行是电影名,表格里是评分,空白代表没看过。
这里的评分可以是用户自己打的分,也可以是我们通过他在网上的行为,历史浏览记录之类的隐式推断出来的。
二。如何计算评分
这里我们采取隐式评分,显示评分太弱智了。
大的思路如下图:
这个思路是可以通过上一章dashboard应征的,这里不展开来说了。
这边给出了精确的公式。这里要得出参数需要一些约束条件优化问题,我赖得去想,反正我们一拍脑袋,有了以下参数: