协同过滤和关联规则分析的区别

协同过滤 (Collaborative filtering),按维基百科的说法,有广义和狭义两种定义。现在讨论较多的是狭义的定义,在电商网站应用比较广泛。狭义的定义指的是,通过收集群体用户的偏好信息,自动化预测(过滤)个体用户可能感兴趣的内容。 协同(collaborating)是群体行为,过滤(filtering)则是针对个人的行为

协同过滤基于如下基本假设:如果一个人A在一个问题上和另一个人B持相同观点,那么对于另外一个问题,比起随机选择的一个路人甲,A更有可能同B持相同观点。

协同过滤依赖用户偏好信息,偏好又称为用户评分(rating),分为主动评分和被动评分。自动评分指用户使用系统提供的方式进行评分或者评价; 被动评分则根据使用者的行为模式由系统代替使用者完成评价,行为模式包括用户的浏览行为、购买行为等等。

User-based 的协同过滤和 Item-based 的协同过滤是两个最常用的技术,它俩统称为Memory based的协同过滤技术,他们共有的缺点是数据稀疏,难以处理大数据量给出即时结果(item-based的协同过滤比user-based的协同过滤稍好一些),因此发展出以模型为基础的协同过滤技术。 以模型为基础的协同过滤(Model-based Collaborative Filtering)是先用历史资料得到一个模型,再用此模型进行预测。以模型为基础的协同过滤广泛使用的技术包括Latent Semantic Indexing、Bayesian Networks等等。

User-based的协同过滤用相似统计的方法得到具有相似爱好或者兴趣的相邻使用者,以下是它的详细步骤:
1. 收集用户评分,包括主动评分和/或者被动评分。
2. 最近邻搜索(Nearest neighbor search, NNS):以用户为基础(User-based)的协同过滤的出发点是与用户兴趣爱好相同的另一组用户,就是计算两个用户的相似度。寻找n个和A有相似兴趣用户,然后把他们对M的评分作为A对M的评分预测。
3. 产生推荐结果
有了最近邻集合,就可以对目标用户的兴趣进行预测,产生推荐结果。依据推荐目的的不同进行不同形式的推荐, 较常见的推荐算法有Top-N 推荐和关联推荐。Top-N 推荐是针对个体用户产生,对每个人产生不一样的结果,例如:透过对A使用者的最近邻使用者进行统计,选择出现频率高且在A使用者的评分项目中不存在的,作为推荐结果。关联推荐是对最近邻使用者的记录进行关联规则(association rules)挖掘。

Item-based的协同过滤技术实现方式同 User-based的协同过滤类似,只是分析目标由用户变成了Item。

关联规则分析 (Association Rules,又称 Basket Analysis) 用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则解决的常见问题如:“如果一个消费者购买了产品A,那么他有多大机会购买产品B?”以及“如果他购买了产品C和D,那么他还将购买什么产品?” Apriori 演算法和F-P算法是两个经常用到的算法,两个算法在处理大数据时都存在缺陷问题。

总结来说,协同过滤是 推荐系统中采用的名称,理论基础之一是 数据挖掘中的关联规则。两者的区别比较明显,
1. 关联规则面向的是 transaction,而协同过滤面向的是 用户偏好(评分)
2. 协同过滤在计算相似商品的过程中可以使用关联规则分析,但是在有用户评分的情况下(非1/0),协同过滤算法应该比传统的关联规则更能产生精准的推荐。
3. 协同过滤的约束条件没有关联规则强,或者说更为灵活,可以考虑更多的商业实施运算和特殊的商业规则。

http://blog.csdn.net/joeyon1985/article/details/41646515

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值