协同过滤算法之商品相似性计算

http://blog.sina.com.cn/s/blog_406d9bb00100r95r.html

协同过滤算法之商品相似性计算

  (2011-05-23 19:50:21)
标签: 

杂谈

分类: 数据库

矩阵已经填满,然后,我们就可以进入协同过滤算法核心部分,计算商品相似性并搜寻目标商品的最近邻居商品集合。

*注)这里是用的sql实现的,C语言方法以后再加。

输入:用户-商品评分矩阵R(m,n) 最近邻用户数k, top-N 推荐集项的项目数N.

输出: 目标用户utop-N推荐项集I

第一步:建立用户-商品评分矩阵R(m,n).

tmp_yofee_vote(PID,MID,Score) 可以反映之间的对应关系。

第二步:从R(m,n)中分别提取目标商品i与商品j的评分项集,设为Ii,Ij从而得到商品I,j的评分项并集Iij=IiUIj .

第三步:用刚才的公式对这评分项并集中未评分项进行填补。

第四步(关键点):搜寻最近邻居项目,对于目标项目i,算法需要搜寻i的最近邻居商品集合I={i1,i2,…ik},i IiI中商品ik之间的相似性sim(i,ik) (1<=k<=K) 由大到小排列。k值可直接给定或通过相似性阈值来确定,也可将这两种方法结合,即在相似性大于阈值的商品中择取相似性最大的前k个商品。

第五步:循环执行1~4步,得到i与其他商品的相似性,从而择取相似性最大的前k个项目作为i的最近邻居项目集合I={i1,i2,…,ik} sim(i,ik)由大到小排列。

第六步: 通过计算目标用户u对任意项目i的评分,然后选择得到top-N推荐集。设项目i的最近邻居项目集合为I={i1,i2,…ik}iI中任意项目ik(1<=k<=K)之间的相似性 sim(i,ik)由大到小排列,则目标用户u对项目i的评分P(u,i)可以基于用户uI 中各商品的评分进行加权处理得到:

协同过滤算法之商品相似性计算

第七步:输出utop-N推荐项集I,结束。

协同过滤算法之商品相似性计算

 

--创建相似度表:

CREATE TABLE tmp_yofee_sim

(pid_i NUMBER(6,0),pid_j NUMBER(6,0),score NUMBER(6,4));

 

余弦相似性:

代码大致思路:

通过两个游标进行循环取商品i和商品j进行对比。

--24000sec

DECLARE

  SUM_AB    NUMBER;

  I2        NUMBER;

  J2        NUMBER;

  MAX_SCORE NUMBER(6, 4);

  CNT_6     NUMBER;

  CURSOR CUR1 IS

    SELECT DISTINCT PID FROM TMP_YOFEE_VOTE;

  CURSOR CUR2 IS

    SELECT DISTINCT PID FROM TMP_YOFEE_VOTE;

  CUR_PID  NUMBER;

  CUR_PID2 NUMBER;

BEGIN

  OPEN CUR1;

  FETCH CUR1

    INTO CUR_PID;

  WHILE CUR1%FOUND LOOP

    OPEN CUR2;

    FETCH CUR2

      INTO CUR_PID2;

--排除将两个完全一样的数据进行对比,第二个游标开始循环。

WHILE CUR2%FOUND AND CUR_PID <> CUR_PID2 LOOP

--一用户同时给两商品都有评分并将两个的评分值相乘然后把所有这种可能的用户情况相加。

      SELECT SUM(A.SCORE * B.SCORE)

        INTO SUM_AB

        FROM TMP_YOFEE_VOTE A, TMP_YOFEE_VOTE B

       WHERE A.MID = B.MID

         AND A.PID = CUR_PID

         AND B.PID = CUR_PID2;

 --将商品i的所有评分算平方和再求平方根

      SELECT SQRT(SUM(SCORE * SCORE))

        INTO I2

        FROM TMP_YOFEE_VOTE

       WHERE PID = CUR_PID;

       --将商品j的所有评分算平方和再求平方根

      SELECT SQRT(SUM(SCORE * SCORE))

        INTO J2

        FROM TMP_YOFEE_VOTE

       WHERE PID = CUR_PID2;

       --下面这一段的意思是找出与这个商品最相似的六个商品,如果没到六个就直接插入,如果已经有六个了如果比这个最小的大就插入新值。

      SELECT DECODE(MIN(SCORE), NULL, 0, MIN(SCORE))

        INTO MIN_SCORE

        FROM TMP_YOFEE_SIM

       WHERE PID_I = CUR_PID;

      

      SELECT COUNT(*) INTO CNT_6 FROM TMP_YOFEE_SIM WHERE PID_I = CUR_PID;

     

      IF CNT_6 < 6 THEN

        INSERT INTO TMP_YOFEE_SIM

          SELECT CUR_PID, CUR_PID2, SUM_AB / (I2 * J2) FROM DUAL;

      ELSE

        IF CNT_6 >= 6 AND SUM_AB / (I2 * J2) >= MIN_SCORE THEN

          INSERT INTO TMP_YOFEE_SIM

            SELECT CUR_PID, CUR_PID2, SUM_AB / (I2 * J2) FROM DUAL;

        END IF;

      END IF;

   --打完收功

      FETCH CUR2

        INTO CUR_PID2;

    END LOOP;

    CLOSE CUR2;

    COMMIT;

    FETCH CUR1

      INTO CUR_PID;

  END LOOP;

  CLOSE CUR1;

  COMMIT;

END;

--最后查出每个商品按分值排序取最相近的六个并列出来。

SELECT PID_I, PID_J, SCORE, MM

  FROM (SELECT PID_I,

               PID_J,

               SCORE,

               RANK() OVER(PARTITION BY PID_I ORDER BY SCORE DESC) MM

          FROM TMP_YOFEE_SIM)

 WHERE MM <= 6

 ORDER BY PID_I, MM

posted on 2011-11-30 21:42  lexus 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/lexus/archive/2011/11/30/2269667.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值