自从Netflix Prize比赛举办以来,LFM(latent factor model)隐语义模型逐渐成为推荐系统领域耳熟能详的名词.其实该算法最早在文本挖掘领域被提出,用于找到文本的隐含语义.相关的名词有LSI, pLSA, LDA和Topic Model.本节将对隐含语义模型在Top-N推荐中的应用进行详细介绍,并通过实际的数据评测该模型.
一,基础算法
它的核心思想是通过隐含特征(latent factor)联系用户兴趣和物品.如豆瓣上图书推荐
编辑给出的分类仍然具有以下缺点:
编辑的意见不能代表各种用户的意见
编辑很难控制分类的粒度
编辑很难给一个物品多个分类
编辑很难给出多维度的分类
编辑很难决定一个物品在某一个分类中的权重
为了解决上面的问题,研究人员提出:为什么我们不从数据出发,自动地找到那些类,然后进行个性化推荐?于是,隐含语义分析技术(latent variable analysis)出现了.隐含语义分析技术因为采取基于用户行为统计的自动聚类,较好地解决了上面提出的5个问题.