传统数据挖掘/机器学习库存在的问题
缺少一个活跃的技术社区
扩展性差
文档化差,缺少实例
不开源,商业化库
通常由研究机构开发
实施性差
技术社区活跃
扩展性好
文档化好,实例丰富
100%源代码开源
易于使用
基于MapReduce开发的数据挖掘/机器学习库
良好的扩展性和容错性
充分利用了
MapReduce和