1.技术:推荐系统、搜索引擎、信息分类-------解决信息过载
不同于搜索引擎,推荐系统通过分析用户、物品和上下文等信息主动向用户进行推荐。
推荐引擎通过对用户本身兴趣的研究,将一些用户不会感兴趣的内容过滤掉,只提供他们可能会喜欢的信息,从而大大缩减了用户选择的信息范围。
推荐系统的作用决定了它往往需要处理海量数据。-------大数据带来的挑战:推荐系统在系统架构、推荐算法等方面的挑战。
----如何在规模越来越大的数据上进行速度更快、准确率更高的推荐。
2.相关研究现状
电影推荐系统,电商Amazon推荐系统,推荐系统是计算机科学、信息学、社会学等多学科交叉的新兴领域。
推荐系统:理论:算法;工程实践:大数据---实时性、稳定性
3.推荐算法:
3.1 基于用户的协同过滤算法、基于物品的协同过滤、基于模型的协同过滤。----利用用户行为数据,基于群体智慧进行推荐。
3.2 基于知识的推荐:例如电子类产品的消费。
3.3 基于内容的推荐:分析物品的描述信息及相关特征,通过聚类等手段进行归类,根据用户行为信息,推荐用户可能敢兴趣的类别
3.4 混合推荐技术:将各种推荐算法以相应的规则统一起来
4.推荐算法面临的问题:4.1 稀疏性:系统的输入数据十分稀疏 ---------------奇异值分解(SVD),
4.2 冷启动:系统在缺乏相关行为数据时,无法进行预测和推荐的问题。---分为:用户冷启动、物品冷启动、系统冷启动。
4.3 实时性问题:随着数据规模的扩大,推荐系统很难在较短的时间里给出推荐。
工程实践方面的问题:大数据时代,推荐系统作为信息过滤的主要手段之一,必须具备大数据处理能力。
大数据四大特点:1.体量大,通常为TB甚至PB级---数据量大,面临实时性问题 2.数据类型众多,除了结构化数据,还有网络日志、音频、视频、图片等非结构化数据---系统必须包括多个推荐引擎,以处理不同的数据输入,获得多方面的信息 3.价值密度低,有价值信息的提取--推荐系统需要面对数据稀疏的问题 4.数据变化速度快--推荐系统必须稳定可靠地面对所有复杂数据环境
大数据处理技术:-----将推荐技术与大数据技术相结合,因此大数据框架的性能就会极大地影响整体的推荐性能。大数据处理技术---分布式框架----Hadoop生态系统:MapReduce分布式计算框架,HDFS分布式存储框架,Hive数据仓库查询引擎,Sqoop数据传输工具。