相关概念
- 信息过载(Information Overload):是指社会信息超过了个人或系统所能接受、处理或有效利用的范围,获取有价值信息的成本越来越高。解决过载的办法(1)信息分类,门户网站(2)信息搜索,搜索引擎(3)信息推荐,推荐系统
- 推荐系统(Recommendation System):推荐系统属于资讯过滤的一种应用。推荐系统能够将可能受喜好的资讯或实物(例如:电影、电视节目、音乐、书籍、新闻、图片、网页)推荐给使用者。
- 推荐系统分类:推荐系统根据研究数据的类型以及推荐方法的不同通常被分成四类:
-
- 协同过滤推荐系统:协同过滤推荐模型是基于统计的机器学习算法得到推荐结果,可以细分为基于用户的协同过滤推荐、基于项目的协同过滤推荐以及基于模型的协同过滤推荐
- 基于内容的推荐系统:基于内容的推荐模型是根据项目相关信息、用户的历史行为以及用户相关信息,获得用户的兴趣偏好,为用户推荐跟他的兴趣偏好相似的项目。这里的项目相关信息可以是项目的文字描述信息、标签、评论以及人工标注的信息等。用户相关信息是指人口统计学信息(如年龄、性别、职业、地域、收入等等),用户的历史行为可以是对项目的评论、收藏、点赞、观看、浏览、点击等。
- 混合推荐系统:混合推荐系统将多种推荐算法结合起来做推荐,用来避免单个推荐算法存在的问题,最终获得比单个算法更好的推荐效果。最常见的是将协同过滤推荐方法和其他方法相结合,克服冷启动以及数据稀疏性等问题
- 序列推荐系统:序列推荐系统是从时间角度上考虑用户的点击行为,用户的动作在一段时间上是有先后顺序的,序列推荐模型通过用户的动作序列学习到用户兴趣的变化,从而能够对与用户下一个行为进行一个预测。
数据生命周期
![](https://img-blog.csdnimg.cn/img_convert/afb2e31b6c8a550233838d5f9acd2443.png)
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过