在上一篇文章中,我们介绍了推荐系统的主要工作流程。在接下来的文章中,我们会详细分析推荐系统中的过滤技术。
推荐系统中不同的过滤技术
推荐系统要想为用户提供切实有用的推荐服务,高效、准确的推荐技术至关重要,也就是说,理解不同推荐过滤技术的特征和潜力至关重要。
下图显示了推荐系统中不同的过滤技术:
基于内容的过滤技术(Content-based filtering)
基于内容的过滤技术(CBF)是一种依赖于域的算法,在生成预测时,它更多地强调对项目属性的分析。当被推荐的对象是网页、出版物和新闻等文本型项目时,这种过滤技术是最成功的。
基于内容的过滤技术推荐时要依赖用户画像,而用户画像是从用户评估过的项目中获取,与用户的积极评价最相关的项目会被推荐给用户。
为了生成有意义的推荐结果,CBF会使用不同的模型来查找文本项目之间的相似性。它可以使用向量空间模型( Vector Space Model),如关键词权重计算法(TF / IDF,Term Frequency Inverse Document Frequency),或概率模型,如朴素贝叶斯分类器、决策树、或神经网络,在语料库中模拟不同文本项目之间的关系。之后,通过统计分析或机器学习技术来学习基础模型,从而生成推荐结果。
基于内容的过滤技术不需要参照其他用户画像,因为其他用户画像不会影响推荐的最终结果。而且,如果用户画像发生变化,CBF技术仍有可能在很短的时间内调整推荐结果。该技术的主要不足是需要系统对项目内容的特征有足够深入的了解。
基于内容的过滤技术的利弊
基于内容的过滤克服了协同过滤遇到的问题——即使没有用户提供评级,基于内容的过滤也可以向用户推荐新商品。因此,即使数据库中不包含用户兴趣爱好,也不会影响推荐结果的准确性。
而且,如果用户兴趣爱好发生变化,基于内容的过滤可以在短时间内调整其推荐结果。用户可以在不共享其个人信息的情况下获得推荐结果,这一点大大确保了个人隐私的安全性。
此外, CBF技术还可以提供关于如何向用户生成推荐的解释。
然而,基于内容的过滤技术取决于项目的元数据。也就是说,在向用户推荐之前,系统需要丰富的项目内容描述和完整的用户画像,即“有限内容分析”。因此,CBF的有效性取决于描述性数据的可用性。
而内容过度专业是CBF技术面临的另一个严重问题。用户只能获得与其自身画像中的项目类似的推荐结果。
以上就是我们对基于内容的过滤技术的介绍,下一篇文章我们将关注协同过滤技术,欢迎阅读!
相关阅读:
推荐系统的工作流程(一)
用Python搭建推荐系统的最佳开源包
如何用Python搭建一个简单的推荐系统?
想要了解推荐系统?看这里!(2)——神经网络方法
想要了解推荐系统?看这里!(1)——协同过滤与奇异值分解
入门推荐系统,你不应该错过的知识清单
推荐系统相关术语知多少
如欲了解更多,欢迎搜索并关注先荐微信公众号(ID:dsfsxj)。
本账号为第四范式智能推荐产品先荐的官方账号。账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在把更多与人工智能相关的知识分享给公众,从专业的角度促进公众对人工智能的理解;同时也希望为人工智能相关人员提供一个讨论、交流、学习的开放平台,从而早日让每个人都享受到人工智能创造的价值。