基于内容推荐流程
①建立物品画像
- ①用户打tag②电影的分类值
- 根据电影的id 把tag和分类值合并起来 求tf-idf
- 根据tf-idf的结果 为每一部电影筛选出 top-n(tf-idf比较大的)个关键词
- 电影id-关键词-关键词权重
②建立倒排索引
- 通过关键词找到电影
- 遍历 电影id-关键词-关键词权重 数据,读取每一个关键词,用关键词作为key[(关键词对应的电影id,tfidf)]作为value 保存到dict当中
③用户画像
- 看用户看过那些电影,到电影的 电影id-关键词-关键词权重 数据中 找到电影所对应的关键词
- 把用户看过的所有的关键词放到一起 统计词频 每个词出现了几次
- 出现次数多的关键词 作为用户的兴趣词,这个兴趣词实际上就是用户画像的关键词
④根据用户的兴趣词 找到兴趣词对应的电影 多个兴趣词可能对应一个电影{电影id:{关键词1权重,关键词2权重}}
- 把每一部电影对应的关键词权重求和之后 排序 权重比较高的排在前面 推荐给用户