6.2. 基于协同过滤的推荐系统
基于协同过滤的推荐系统
为了让推荐结果符合用户口味,我们需要深入了解用户和物品。用户的兴趣是不断变化的,但用户不会不停的更新兴趣描述。最后,很多时候用户并不知道自己喜欢什么,或者很难用语言描述自己喜欢什么,因此,我们需要通过算法自动发觉用户行为数据,从用户的行为中推测用户的兴趣,从而给用户推荐满足他们兴趣的物品。通常我们会给用户推荐其它用户看过的物品,或者是浏览物品相关的类似商品。
基于用户行为分析的推荐算法是个性化推荐系统的重要算法,学术界一般将这种类型的算法称为协同过滤算法。顾名思义,协同过滤就是指用户可以齐心协力,通过不算地和网站互动,使自己的推荐列表能够不断过滤掉自己不感兴趣的物品,从而来满足自己的需求
用户行为数据简介
用户行为数据最简单的存在形式就是日志。网站在运行过程中都产生大量原始日志,并将其存储在文件系统中。很多互联网业务会把多种原始日志按照用户行为汇总成会话日志。推荐系统和电子商务网站就会将原始日志描述成用户行为的会话日志。会话日志同存储在分布式数据仓库中,如支持离线分析的Hadoop Hive。这些日志记录了用户的各种行为,如在电子商务网站中这些行为主要包括网页浏览、购买、点击、评分和评论等。
用户行为在个性化推荐系统中一般分为两种:显性反馈行为和隐性反馈行为。显性反馈行为包括用户明确表示对物品喜好的行为。这些主要的方式都是采用评分和喜欢/不喜欢去收集显性反馈的方式。现在很多网站