如何选择用于分布式机器学习的计算引擎或分析数据市场

如何选择用于分布式机器学习的计算引擎或分析数据市场


在讨论使用Spark作为示例的计算引擎和使用Vertica作为示例的Data Mart,对于专注于从实时数据中获得洞察力的企业,哪个解决方案可以快速准确地实现这一点。 具体来说,Data Mart最大的优势是内置的数据存储,用于处理大量数据,同时执行分析和高并发性,以便快速处理数据,支持多个用户。使用机器学习分析的基准测试显示,在运行KMeans,线性回归,逻辑回归或朴素贝叶斯算法时,当数据量相对较少,Vertica相对于Spark具有较少的性能优势。 但随着数据量的增加,Vertica在大多数情况下提供了比使用完全相同的架构在Spark中运行的相同机器学习算法更好的性能数量级。 而且Vertica包括了将数据从磁盘加载到内存所需的时间,但Spark的数据加载时间不包括在性能比较图中。

另外比较Spark和Vertica中训练和测试Random Forests模型所需的步骤。 使用的例子是将银行贷款分类为低,中或高风险。 因为Spark必须导入随机林库,并在运行模型之前加载和转换数据,执行计算更复杂:需要28行Scala代码,而Vertica中只有7行SQL就能运行随机林 模型。通过评估,重点关注四种架构作为考虑因素的企业的需求:数据需求,组织结构,准确性要求和部署配置。 下图展示了对于每一个领域,通过具体的考虑来确定计算引擎(CE)或数据集市(DM)是否是正确的解决方案。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值