基于内容的信息推荐方法的理论依据主要来自于信息检索和信息过滤,所谓的基于内容的推荐方法就是根据用户过去的浏览记录来想用户推荐用户没有接触过的推荐项。下面主要是从两个方面来说基于内容的推荐方法:启发式的方法和基于模型的方法。
启发式的方法就是用户凭借经验来定义相关的计算公式,然后再根据公式的计算结果和实际的结果进行验证,然后再不断的是修改公式以达到最终目的。而对于模型的方法就是根据以往的数据作为数据集,然后根据这个数据集来学习出一个模型。一般的推荐系统中运用到的启发式的方法就是使用tf-idf的方法来计算,跟还有tf-idf的方法计算出这个文档中出现权重比较高的关键字作为描述用户特征,并使用这些关键字作为描述用户特征的向量;然后再根据被推荐项的中的权重高的关键字来作为推荐项的属性特征,然后再将这个两个向量最相近的(与用户特征的向量计算得分最高)的项推荐给用户。在计算用户特征向量和被推荐项的特征向量的相似性时,一般使用的是cosine方法,计算两个向量之间夹角的cosine值。
对于基于模型的方法来推荐时,常常是使用纯贝叶斯分类的方法来实现,其主要思想就是首先对用户的过去访问记录进行分类,找出用户比较喜欢的分类,然后再将被推荐项进行分类,将与用户比较喜欢的分类的推荐项推荐给用户。对于网页Pj个网页中的关键字计算这个网页属于列别Ci,根据纯贝叶斯分类计算则有: 再假设这些关键字是独立的且这些关键字在文档或者是句子中的位置也是独立的,从而可以将公式[1]化简成,然后再根据用户过去的访问记录计算出和值。
基于内容的推荐能很好的根据用户的过去的访问记录来给用户做推荐,但是基于内容的推荐还是存在局限性的:
- 内容分析的限制。这些限制主要来来自于信息检索技术,例如如何从数据中抽取去特征数据,因为特征抽取在信息检索中就是一个问题。
- 过于专门化。仅仅是推荐与用户以前喜欢的推荐项,因为基于内容的推荐方法就是根据用户过去的访问记录来给用户做推荐。
- 新用户问题。这个也是基于内容的推荐性质决定的,一个用户一上来是没有任何记录的,所以很难推荐项目给用户。
基于内容的推荐方法用到知识很多都是信息检索用的方法,例如tf-idf和文本分类技术等,基于内容的推荐方法其实质就是根据用户的访问记录来得出用户的特征属性,然后再根据用户的特征属性与推荐项的特征属性来计算效用函数的值,并将结果推荐给用户。