Mahout概述
- 基于Spark/Flink/H2O开发的数据挖掘/机器学习库
- 截止2014年底,mahout不再接收任何MapReduce开发的算法,转向spark
- 良好的扩展性和容错性
- 充分利用了MapReduce/Spark/Flink 和HDFS 的扩展性和容错性
- 属于Hadoop生态系统重要组成部分
- 实现了大部分常用的数据挖掘算法
- 聚类算法
- 分类算法
- 推荐算法
后端计算引擎
Hadoop MapReduce、Spark、H2O、Flink
Mahout架构:high-level
Mahout架构:low-level
Mahout提供的算法
Mahout分类算法
Mahout聚类算法
Mahout其他算法
Mahout推荐算法介绍
- Mahout实现了协同过滤框架
- 使用历史数据(打分,点击,购买等)作为推荐的依据
- User-based: 通过发现类似的用户推荐商品。由于用户多变的特性,这种方法很难扩展;
- Item-based:通过计算item之间相似度推荐商品。商品不易变化,相似度矩阵可离线计算得到。(诞生于Amazon)
- MF-based:通过将原始的user-item矩阵分解成小的矩阵
- 使用历史数据(打分,点击,购买等)作为推荐的依据