H2O机器学习框架的学习

介绍:



H2O是开源的,分布式的,基于内存的,可扩展的机器学习和预测分析框架,适合在企业环境中构建大规模机器学习模型。H2O核心代码使用Java编写,数据和模型通过分布式 Key/Value 存储在各个集群节点的内存中。H2O的算法使用Map/Reduce框架实现,并使用了Java Fork/Join框架来实现多线程。


相关资源:

官网:https://www.h2o.ai/h2o/

github:https://github.com/h2oai/h2o-3

测试数据下载地址:http://data.h2o.ai/

首次接触指导文档:https://github.com/h2oai/h2o-3/blob/master/h2o-docs/src/product/flow/README.md


H2O的产品:

   H2O Flow:开源的分布式的机器学习框架,可以通过web页面快速构建模型;
   Deep Water:自动化机器学习框架,后端支持TensorFlow、MXNet以及Caffe.
   Sparkling Water:可扩展的H2O的机器学习算法与Spark的功能相结合。 使用Sparkling Water,用户可以从Scala / R / Python驱动计算,并利用H2O Flow UI,为应用程序开发人员提供了理想的机器学习平台。
   Stream:实时机器学习智能应用解决方案;
   Driverless AI:无人驾驶技术平台;


学习说明:

    首先通过指导文档对页面布局有一定的了解,稍后可以通过用例自己创建一个模型来验证;

    机器学习的参数调整和设置仍需要专业知识;

前台页面的不足:图表不够直观,中文资料较少,存在一定的入门门槛;


发布了5 篇原创文章 · 获赞 0 · 访问量 1665
展开阅读全文

机器学习到底要不要大数据的支持,如果要数据的支持,支持到哪一步?

12-16

机器学习到底要不要大数据的支持,如果要数据的支持,支持到哪一步? 众所周知AlphaGo是需要大量的数据来进行学习的,ZERO却只需要少量的数据样本即可达到甚至超过AlphaGo的水准,那么问题来了,这个数据量的多少从科学的角度来说它的一个标准是什么,或者说它怎么来度量? ———————————————————————————————— 谢谢各位的回答,实际上我对我自己提出的两个问题中的前一个和大家的看法是差不多的,但实际上我希望得到第二个问题的解答。 我们的共识是,机器学习在大部分时候都是需要大量数据的(实际上我没有见过不需要大量数据就能训练出来的智能),然而在现实操作中总会面临数据量不是不够就是浪费的情况(且不说数据的质量),所以去预测一个具体需要的数据量就是极其必要的。打个比方,在运用人工智能对医学影像进行分析的时候,我们需要极其大量的数据,但我们不可能去向医院索取它的全部数据,所以就会想要通过计算得到一个大概的数据量的值,而不需要三番五次地去向医院申请数据。 再举一个例子,比如我们在打磨一个适用于某处的齿轮,我们当然可以一边打磨一边拿去比较大小是否合适,但这一点也不方便,我们通常通过测量来获取需要的数据,然后直接按照这个数据来打磨齿轮。 所以精确计算每次训练时所需要的数据量,这显然是极其必要的,既可以让我们避免数据不足的情况又不至于让我们一直盲目地收集数据。 可问题就出在这里,这个数据量如何去测量? ———————————————————————————————— 回复caozhy:感谢你的回答:)。是的,数据的获取存在困难是一个现实存在的问题,例如医院里病人的数据签了保密协议,要取出是很麻烦的,其他领域也是一样,只有用钱把数据砸出来,从这方面来说估计一个需要的数据的量也是必要的。即使是能够获取到大量的数据,我们也希望能通过计算直接得到一个最优的数据量,如果这个计算方法真的存在并且被发现,自然是一桩好事。 ———————————————————————————————— 说明一下,这个问题是在最近的第194期双清论坛上由高文院士提出的,我有幸听到教授的转述,才会对此有所思考,当然才疏学浅,对人工智能的理解也不够深入,只能做上述的一些浅层解读,请点拨指正。 问答

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览