《Recommender System An Introduction》,第三章,基于内容的推荐。
概述
如果说协同过滤中物品选择问题可以描述成“推荐相似用户喜欢的物品”,基于内容推荐则可描述成“推荐与用户过去喜欢的物品相似的物品”。因此,推荐系统的任务还是(基于用户记录)预测用户是否喜欢自己没有见过的物品。
基于内容的推荐,必须依赖关于物品和用户偏好的额外信息,但它不需要巨大的用户群体或评分记录,也就是说,只有一个用户也可以产生推荐列表。
在实际生产中,人工获取物品的特征,需要很多成本。
在文本文档推荐中,比如新闻或网页,绝大多数的基本假设是物品的特征能够自动从文档内容本身或无结构的文本描述中抽取。因此,基于内容推荐系统的典型例子是比较候选文章的主要关键词和用户过去高度评价过的其他文章中出现的关键词来推荐新文章。相应地,能够被推荐的物品经常指的就是“文档”。
基于内容和基于知识的推荐系统并没有明确界限,有些作者甚至认为基于内容是基于知识的子集。传统分类方案中,基于内容推荐系统的特点是着重于利用物品描述信息,而基于知识推荐系统则一般会有一些附加的因果知识来生成推荐,比如某个实用功能。
本节中,讨论基于内容的推荐,关注的算法侧重于推荐文本描述的物品,并能自动“学习”用户记录(基于知识的推荐系统通常是显示询问用户的偏好)。
内容表示和相似度
最简单的方法
物品特征:维护每个物品特征的详细列表(也叫属性集、特征集或物品记录&