[](()2.3 Mahout
Mahout是一个分布式线性计算框架,提供一些可扩展的机器学习领域经典算法的实现,旨在让数学家、统计学家和数据科学家快速实现自己的算法。
• 优点:
包括聚类、分类、推荐过滤、频繁子项挖掘等诸多实现。
基于Hadoop开发,可轻松实现分布式计算。
快速高效实现数据挖掘算法,解决了并行挖掘的问题 。
• 缺点:
实现的算法单一,仅适用于推荐,分类,聚类等单一场景。
对训练的数据格式有要求,定制化数据存在一定难度。
• 用途:
推荐系统
聚类
分类
• 案例:
官方示例:https://github.com/apache/mahout/tree/master/examples
• Github地址:https://github.com/apache/mahout
[](()2.4 Spark MLllib
MLlib(Machine Learnig lib)是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。 《一线大厂Java面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》无偿开源 威信搜索公众号【编程进阶路】
MLlib是MLBase一部分,其中MLBase分为四部分:MLlib、MLI、ML Optimizer和MLRuntime。
MLlib目前支持4种常见的机器学习问题: 分类、回归、聚类和协同过滤。
• 优点:<