数据挖掘之【协同过滤算法简版】

协同过滤算法在数据挖掘中应用广泛,其核心包括相似性的衡量和推荐项选择。算法分为User-Based和Item-Based两种,前者面临大数据集时效率低下,后者通过计算物品间的相似度进行推荐。本文介绍了相关性系数计算、推荐项的确定,并探讨了Item-Based协同过滤的算法思想。
摘要由CSDN通过智能技术生成

算法简介    

    协同过滤算法在数据挖掘算法中属于比较简单的,在《集体智慧编程》一书中,开篇讲的就是协同过滤算法。这章早就看完了,没有用代码区实现而已,今天动手敲了代码,返现还是有些感触,特此记录下。

    协同过滤的算法核心在于以下两方面:

        1)怎么衡量两个向量之间的相似性,此处可以参见我转载的一片博客:数据挖掘之距离计算算法

        2)从集合中找出与自己喜好相似度不为零的人中,找出偏好没有出现在我的集合中或打分为0的选项

        3)为了避免某些项打分过高产生的影响,采用权重,权重的计算可以由相似度来计算。参见以下代码。

相关性系数计算

#--------------Euclidean distance------------#
def calc_ed_distance(fans,p1_name,p2_name):
    sim = {}
    for k in fans[p1_name].keys():
        if k in fans[p2_name].keys():
            sim[k] = 1
    if l
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值