知乎 开源机器学习_开源机器学习入门

知乎 开源机器学习

尽管马斯克(Musk)和霍金(Hawking)的所有头条新闻都将被来自天空的杀手级机器人在我们眼前的凡人身上拜访,但机器学习和人工智能仍然存在。 更重要的是,机器学习(ML)Swift成为开发人员增强其应用程序和职业,更好地理解数据并帮助用户提高效率的一项关键技能。

什么是机器学习? 它是使用历史数据和当前数据来进行预测,组织内容和学习有关数据的模式,而无需进行明确的编程。 通常使用统计技术来完成此任务,该技术会查找数据中的重要事件(例如共现和异常),然后将其可能性考虑进一个模型中,稍后再查询该模型以提供一些新数据的预测。

常见的机器学习任务包括分类(对项目应用标签),聚类(自动对项目进行分组)和主题检测。 它也常用于自然语言处理。 机器学习正越来越广泛地用于各种用例中,包括内容推荐,欺诈检测,图像分析和电子商务。 它在许多行业中都非常有用,并且大多数流行的编程语言都至少具有一个实现常用ML技术的开源库。

反映了软件向开放源代码的广泛推动,现在可以使用许多充满活力的机器学习项目进行实验,并提供大量书籍,文章,教程和视频,以帮助您快速入门。 让我们看一些引领开源机器学习的方法的项目,以及有关ML术语和技术的一些入门。

底漆

除了项目主页和文档之外,还有许多极好的资源可用来教授机器学习背后的核心概念。 尽管有成百上千(甚至成千上万)有关ML的书籍和教程,但我尝试着重于针对程序员的书籍和教程,而不再着重于过于严格或过于关注幕后数学的书籍和教程。 尽管从长远来看,这些东西很重要,但通常会妨碍工程师在入门阶段尝试使用实际数据的实际系统。

  1. 编程集体智慧: Toby Segaran撰写的构建智能Web 2.0应用程序是利用机器学习思想构建Web应用程序的最佳介绍之一。 通过使用Python中的示例,Segaran提出了许多常用方法背后的概念,这些方法可以利用先前的历史为将来带来收益。
  2. Joel Grus撰写的Scratch资料科学数据科学的另一个基于Python的介绍,将带您进入线性代数,统计和概率(但不要太多!)等核心原理,然后再进入机器学习的基石:回归,神经网络和朴素贝叶斯
  3. 吴安德( Andrew Ng)的Coursera / Stanford University机器学习在线课程 。 从许多方面讲,吴先生首先在iTunes上进行演讲,现在通过Coursera进行培训,他是机器学习方面的领先教育者。 请预先警告:本课程需要投入,但是值得您深入了解该主题。
  4. 商业数据科学:您需要了解的有关 Foster Provost和Tom Fawcett的数据挖掘和数据分析思想的知识。 引用序言:“这不是一本有关算法的书,也不是一本有关算法的书的替代品。我们故意避免使用以算法为中心的方法。我们认为,作为技术基础的基本概念或原则相对较少这些概念为许多众所周知的数据挖掘算法奠定了基础。”
  5. 希拉里·梅森(Hilary Mason)对使用网络数据进行机器学习的介绍 。 Mason和O'Reilly Media制作的这个视频系列是一个易于理解的相对较短的视频集,向您介绍了机器学习中的关键主题,例如聚类和分类。

专案

尽管有许多出色的开源机器学习项目,但以下项目结合了强大的技术能力,良好的文档和可访问的社区,用于提出问题和解决问题。

威卡

来自新西兰怀卡托大学的Weka长期以来为开源机器学习树立了标准,它具有丰富的工具集,大量的算法可供试用,以及用于探索数据和结果的用户界面。 它也有一本出色的随 ,其中解释了许多ML概念,同时显示了使用Weka的示例。 虽然不一定要顺应最新的深度学习热潮,但这是一个坚实的项目,可以开始理解这些概念。

马豪

作为该项目的联合创始人,我几乎不屑一顾, Apache Mahout在过去的一年中对其进行了重新设计,以专注于Apache Spark以及在交付常用的ML算法的实现时全面检查构建ML模型的方式。 对于仍在使用Hadoop MapReduce的用户,Mahout继续使用MapReduce范式维护用于分类,聚类和建议的关键算法的实现。

Spark的MLLIb

MLLib从Apache Spark的第一天开始构建,致力于以可扩展的方式提供用于群集和分类的常用机器学习算法。 通过利用Spark,MLLIb能够利用大规模集群优化来处理大数据,这在机器学习中尤其重要,因为所使用的许多算法本质上都是迭代的,而且数据量大。

Scikit学习

scikit-learn建立在其他可靠的Python库(例如NumPy和SciPy)上,将上述Java / Scala库中涵盖的许多算法和工具引入了Python堆栈。 添加一组不错的教程 ,您将拥有一个图书馆,可以立即让您学习和学习。

深度学习4J

借助ML流行词领域中的最新流行词,Java深度学习为开源带来了一组强大的算法,这些算法旨在在Hadoop和Spark上进行单机和分布式深度学习。 它具有用于处理数据的一系列实用程序,还具有GPU(图形处理单元)支持。

什么是深度学习? 深度学习已在Google,Facebook和Amazon等地方越来越多地使用,它是一种新的大规模神经网络方法,旨在显着减少训练和维护模型所需的人工干预,同时还提供明显更好的结果。 所谓的DL4J在亚当·吉布森(Adam Gibson)和乔什·帕特森(Josh Patterson)的著作中也有一本书( 预订 )。

奖励项目

与所有概述文章一样,根本没有足够的空间来覆盖一个空间中的所有重要项目,因此请确保还检查H20Vowpal WabbitPredictionIO以及开源机器学习库的MLOSS档案

下一步

机器学习入门的真正关键是从上述项目之一下载一些示例数据和代码。 探索不同的方法时,请做好准备进行大量的试验和错误。 您将很快发现,尽管对人工智能进行了大肆宣传,但构建这些应用程序仍然需要大量的人工智能才能获得良好的结果。

阿帕奇
鹅毛笔

本文是Rikki Endsley协调的Apache Quill专栏的一部分。 通过将您的故事提交给Opensource.com,在Apache Software Foundation的项目中共享您的成功故事和开源更新

翻译自: https://opensource.com/business/15/9/getting-started-open-source-machine-learning

知乎 开源机器学习

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值