参考:Content-based Recommendation Systems
1 item representation
item表示一般有两种:一种是结构化的数据,一般存储于数据库中。另外一种是非结构化的数据,比如一篇文档。非结构化的数据不好表达,一般将其转化为结构化数据。通常采用IR领域搜索方面所用的技术,将一篇文章提炼为关键词的集合(做一些处理,如同义词合并)。然后采用tf-idf为关键词计算其权重。但是这样的关键词集合的表示,不能区分(不是XX这样的语义。)进一步的改进是,使用连续的词作而不是单个词作为关键词
2 User Profiles
用户行为有很多种,该文重点列出了两类。
a用户兴趣建模。用户兴趣建模的方法有很多种,其共同的表达是:a function that for any item predicts the likelihood that the user is interested in that item (一个预测用户对item集合中的每一item的喜好程度)。下面会列出几种用户建模的方法
b 用户行为的历史记录。可以是显式的可以是隐式的,但需要知道用户以往使用该系统的记录。这些行为数据可以用来过滤掉推荐系统给出结果中用户在以往已经阅读/购买的,另一方面这些行为数据可以用来作为机器学习算法建模的训练数据。
3learning user model
构建用户偏好模型就是根据用户历史而进行的分类学习。将训练数据分类几类(如简单的喜欢/不喜欢 ,复杂的等级&#