[bj]集体智慧编程


第2章 提供推荐


(1)搜集偏好: 数据准备过程,根据用户的不同行为和物品属性确定分值
(2)

user-based collaborative filtering基于用户的协作性过滤
基于用户的推荐:物品x推荐给用户y的推荐值=sum(用户y1与y相似度*y1对x的评分)for each y1;
item-based collaborative filtering基于物品的协作性过滤
基于物品的推荐:物品x推荐给用户y的推荐值=sum(物品x1与x相似度*y对x的评分)for each x1;
(3)选择user-based还是item-based取决于目的,若用户的数据量较大且变化频繁时,则用户相似度计算耗费时间较多且次数也频繁;
物品相对于用户数据则稳定的多,物品相似度更新不用太频繁。

(4)皮尔逊相关度

相对于欧式距离的区别详见http://blog.csdn.net/hu17889/archive/2011/06/11/6538007.aspx

 


第3章 发现群组


(1)问题博客分组;样本:博客,特征:关键词数量,方法:分层聚类,kmeans聚类。

距离定义:皮尔逊相关度,因为不同博客下,具有相似单词量分布,但单词数量可能不同。如[1 2 3]与[11 12 13]的相关度为0

皮尔逊相关度的说明详见http://blog.csdn.net/hu17889/archive/2011/06/11/6538007.aspx
(2)用tanimoto系数度量二值数据矢量直接的距离,应用:用户-物品(喜欢1,不喜欢0)

(3)对于用非欧氏距离求得的距离矩阵只包含两两关系,并且不一定符合欧式空间分布,文中提出了一种将上述距离矩阵转化为欧式二维分布并形式化表达出来,高维数据也能通过求两两距离转化为距离矩阵,再用本文方法画出二维样本分布图,方便观察数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值