benchm-ml 吐槽 spark大数据

 

摘要

截至2018年1月:

当我在2015年3月开始这个基准测试时,“大数据”炒作风靡一时,粉丝们希望用分布式计算(Hadoop,Spark等)对“大数据”进行机器学习,而对于数据集大多数人来说单机工具不仅足够好,而且速度更快,功能更多,漏洞更少。我在2015年开始的会议和聚会上就这些基准进行了不少讨论,而在开始时我有几个人愤怒地询问我在Spark上的结果,到2017年大多数人都意识到单机工具可以更好地解决他们的大部分ML问题。虽然Spark是原始数据(通常确实是“大”)的ETL的一个不错的工具,但它的ML库完全是垃圾并且表现优异(在训练时间,通过数量级的更好的工具,记忆足迹甚至精确度。此外,过去几年服务器和云中可用RAM的增加,以及机器学习通常将原始数据细化为更小尺寸的数据矩阵的事实使得大多数单机高性能工具(例如xgboost,lightgbm,VW还有h2o)现在是大多数实际应用的最佳选择。大数据炒作终于结束了。大众也是h2o)现在大多数实际应用的最佳选择。大数据炒作终于结束了。大众也是h2o)现在大多数实际应用的最佳选择。大数据炒作终于结束了。

现在正在发生的是新的炒作浪潮,即深度学习。粉丝们现在认为深度学习(或者他们错误地调用它:AI)是所有机器学习问题的最佳解决方案。虽然深度学习确实在几类数据/机器学习问题上非常成功,例如涉及图像,语音和某些文本(监督学习)和游戏/虚拟环境(强化学习),但遇到的更多“传统”机器学习问题在欺诈检测,信用评分或流失(具有结构化/表格数据)等业务中,深度学习并不那么成功,并且它提供的精度低于随机森林或梯度增强机器(GBM)。所以,最近我'更加“专注”和精益,并使用更多现代工具(如docker)使基准更易于维护和重现。此外,最近显而易见的是GPU也可以成为GBM的强大计算平台,新的repo也包括可用GPU实现的基准。

我开始这些基准测试主要是出于好奇和学习的愿望(也是为了能够为我的项目选择好的工具)。这是相当一些经验,我要感谢所有人(特别是工具的开发人员)帮助我调整和充分利用他们的ML工具。作为这项工作的副作用,我有幸被邀请参加几个会议(KDD,R-finance,useR!,eRum,H2O World,Crunch,Predictive Analytics World,EARL,Domino Data Science Popup,Big Data Day)。洛杉矶,布达佩斯数据论坛)和10多个聚会,例如:

  • KDD 邀请演讲 - 实践中的机器学习软件:Quo Vadis? - 加拿大哈利法克斯,2017年8月
  • R in Finance Keynote - No-Bullshit Data Science - 芝加哥,2017年5月
  • 洛杉矶数据科学聚会 - 生产中的机器学习 - 洛杉矶,2017年5月
  • 用户!2016年 - 分析数据集的大小及其对R的影响 - 斯坦福,2016年6月
  • H2O世界 - 基准测试开源ML平台 - 山景城,2015年11月
  • LA机器学习聚会 - 基于ML工具的可扩展性,速度和准确性基准测试 - 洛杉矶,2015年6月

(请参阅代码/幻灯片以及此处的一些视频录制)。这些讲座/材料也可能是掌握这个基准测试结果的最佳位置(如果你想选择最新的那个并总结最多观看我的KDD谈话的 视频)。工作继续进行,期待更多结果......

转载于:https://www.cnblogs.com/wdmx/p/10240747.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
毕业设计,基于SpringBoot+Vue+MySQL开发的公寓报修管理系统,源码+数据库+毕业论文+视频演示 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本公寓报修管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息,使用这种软件工具可以帮助管理人员提高事务处理效率,达到事半功倍的效果。此公寓报修管理系统利用当下成熟完善的Spring Boot框架,使用跨平台的可开发大型商业网站的Java语言,以及最受欢迎的RDBMS应用软件之一的MySQL数据库进行程序开发。公寓报修管理系统有管理员,住户,维修人员。管理员可以管理住户信息和维修人员信息,可以审核维修人员的请假信息,住户可以申请维修,可以对维修结果评价,维修人员负责住户提交的维修信息,也可以请假。公寓报修管理系统的开发根据操作人员需要设计的界面简洁美观,在功能模块布局上跟同类型网站保持一致,程序在实现基本要求功能时,也为数据信息面临的安全问题提供了一些实用的解决方案。可以说该程序在帮助管理者高效率地处理工作事务的同时,也实现了数据信息的整体化,规范化与自动化。 关键词:公寓报修管理系统;Spring Boot框架;MySQL;自动化;VUE
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值