海量数据时代与推荐系统的主要算法

据数据调查公司IDC预计2011年全球互联网数据总量将达到1.8万亿GB,海量数据时代已经来临。信息规模和覆盖面的迅速增长,信息过载的问题也随之而来。过量的信息同时呈现,用户无法从中获取自己所需的部分,信息使用效率反而降低。搜索引擎是整合资源的有力工具,然而传统的搜索引擎往往是根据用户的数据字符串对信息进行检索,难以满足用户的个性化需求。

推荐系统已经被广泛用于电子商务和社交网站中。目前,电子商务中主要向用户推荐商品,使用户更便捷的找到其所愿购买的商品,产生交易;而社交网站则主要向用户推荐其感兴趣的用户,使他们建立联系,增加整个关系网的节点和度。

推荐算法研究涵盖了认知科学、信息检索、管理科学、心理学、近似性理论等等,大体可以分为以下几类:基于规则的推荐系统、基于内容的推荐系统、协同过滤推荐系统等。

基于规则的推荐系统广泛用于电子商城,以电商为例,算法主体思想是:首先,统计得到挖掘出的规则前件,然后针对目标客户的历史购买行为,向该客户推荐规则后件。挖掘过程是一种离线的规则分析,分析每一个用户的历史历史购买。例如用户甲购买了A、B、C三种商品,用户乙购买了B、C、D,用户丙购买了A、C,则有关联规则A-C,B-C,用户丁历史购买有A,则首先推荐C,其次推荐B。实际的挖掘过程要相对复杂,找出所有满足最小支持度和最小置信度的关联规则,生成规则库,再向用户推荐。

基于内容的推荐系统在资源类网站使用较多,例如视频点播类网站、豆瓣、CSDN资源下载等。其主要方法为:首先,建立资源项目的关键词序列,也就是网站中常提到的标签(tag);根据资源项目的关键词重合度和用户的历史选择,给出推荐资源项。

协同过滤推荐系统,需要用户对目标项进行评分,处理流程如下:首先,基于系统巾的已有评分数据,计算给定用户(或项目)之间的相似性;然后根据计算得到的相似性,寻找与目标用户(或项目)的最近邻居集合:最后使用最近邻居集合中的用户(或项目)的评分情况来预测目标用户对目标项目的评分值,以此来产生对目标用户的推荐。这个方法比较精妙,在后续的博客中,会详细相关性算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值