基于Spark推荐系统设计与实现阅读1

1.技术:推荐系统、搜索引擎、信息分类-------解决信息过载

不同于搜索引擎,推荐系统通过分析用户物品上下文等信息主动向用户进行推荐

推荐引擎通过对用户本身兴趣的研究,将一些用户不会感兴趣的内容过滤掉只提供他们可能会喜欢的信息,从而大大缩减了用户选择的信息范围。

推荐系统的作用决定了它往往需要处理海量数据。-------大数据带来的挑战:推荐系统在系统架构推荐算法等方面的挑战。

----如何在规模越来越大的数据上进行速度更快、准确率更高的推荐


2.相关研究现状

电影推荐系统,电商Amazon推荐系统,推荐系统是计算机科学、信息学、社会学等多学科交叉的新兴领域

推荐系统:理论:算法;工程实践:大数据---实时性、稳定性


3.推荐算法:

3.1 基于用户的协同过滤算法、基于物品的协同过滤、基于模型的协同过滤。----利用用户行为数据,基于群体智慧进行推荐。

3.2 基于知识的推荐:例如电子类产品的消费。

3.3 基于内容的推荐:分析物品的描述信息及相关特征,通过聚类等手段进行归类,根据用户行为信息,推荐用户可能敢兴趣的类别

3.4 混合推荐技术:将各种推荐算法以相应的规则统一起来


4.推荐算法面临的问题:4.1 稀疏性:系统的输入数据十分稀疏 ---------------奇异值分解(SVD),

4.2 冷启动:系统在缺乏相关行为数据时,无法进行预测和推荐的问题。---分为:用户冷启动、物品冷启动、系统冷启动。

4.3 实时性问题:随着数据规模的扩大,推荐系统很难在较短的时间里给出推荐。


工程实践方面的问题:大数据时代,推荐系统作为信息过滤的主要手段之一,必须具备大数据处理能力

大数据四大特点:1.体量大,通常为TB甚至PB级---数据量大,面临实时性问题 2.数据类型众多,除了结构化数据,还有网络日志、音频、视频、图片等非结构化数据---系统必须包括多个推荐引擎,以处理不同的数据输入,获得多方面的信息 3.价值密度低,有价值信息的提取--推荐系统需要面对数据稀疏的问题 4.数据变化速度快--推荐系统必须稳定可靠地面对所有复杂数据环境

大数据处理技术:-----将推荐技术与大数据技术相结合,因此大数据框架的性能就会极大地影响整体的推荐性能。大数据处理技术---分布式框架----Hadoop生态系统:MapReduce分布式计算框架,HDFS分布式存储框架,Hive数据仓库查询引擎,Sqoop数据传输工具。


















  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值