深度学习为什么要降低学习率_什么是深度学习？为什么要关心它？

最新推荐文章于 2023-02-13 10:59:56 发布

cuml0912

最新推荐文章于 2023-02-13 10:59:56 发布

阅读量1.1k

点赞数

文章标签：神经网络算法人工智能大数据编程语言

原文链接：https://opensource.com/life/16/10/deep-learning-artificial-intelligence

版权

深度学习（DL）是神经网络的一种形式，近年来在多个领域取得突破。Skymind公司的DL4J是Java深度学习框架，适用于大数据处理和企业级应用。DL4J与其他框架如TensorFlow不同，它提供商业支持，与Java生态系统紧密集成，适合生产环境。要入门深度学习，了解基本的机器学习概念是有帮助的。

摘要由CSDN通过智能技术生成

深度学习为什么要降低学习率

不论是Google夺冠的DeepMind AlphaGo胜利，还是Apple将“使用深度神经网络技术”编织到iOS 10中，深度学习和人工智能如今都风行一时，并有望使应用程序与我们的互动方式达到新的高度。区区凡人。

为了深入探讨这个问题（是的，我到那儿去了），我与专注于深度学习的公司Skymind的团队取得了联系，该公司是Java深度学习（DL4J）的创建者，以及最近发行的O'Reilly著作Deep的作者学习：从业者的方法，乔什·帕特森（Josh Patterson）和亚当·吉布森（Adam Gibson）。乔希（Josh）和亚当（Adam）在这次采访中为我们提供了对该主题的温和介绍，并深入了解了他们如何围绕深度学习构建基于开源的业务。

对于初学者来说，什么是深度学习（DL）？为什么我要关心它？

Adam Gibson（AG）：深度学习只是神经网络的另一个术语，神经网络是已经存在了数十年的一系列算法。长期以来，人们一直对它们持怀疑态度，但是随着芯片变得越来越强大，以及我们收集到更多数据来对其进行训练，深度神经网络开始打破记录。我们在许多问题上都达到了专家级的准确性，其准确率高达90年代，这是对其他算法的巨大飞跃。因此，如果您遇到与业务有关的问题，则可以将一美元的价值附加到准确性的提高上；如果您是一家大型企业，则该价值可能是巨大的。这是竞争优势，对利润率有很大影响。

这是竞争优势，对利润率有很大影响。

Josh Patterson（JP）：在亚当所说的基础上，通过深度学习，我们正在从手动特征创建转向自动特征学习。深度学习的诀窍是识别输入数据类型，并将其与正确的深度网络架构进行匹配，以实现强大的自动化功能学习。一个例子是卷积神经网络（CNN）如何自动学习复杂图像数据中的特征，而从历史上看，这对于其他机器学习方法来说更困难。

DL最适合哪些问题？ Skymind的典型用例是什么？

AG：深层神经网络可以对数据进行分类，聚类和做出预测。您可以将它们应用于非结构化数据，例如语音或图像，这是无人驾驶汽车，AlphaGo和Alexa在新闻中看到的。但是它们对于诸如交易和网络活动之类的结构化数据也非常有用，尤其是当您随着时间的推移寻找模式时。这可以应用于欺诈检测，推荐系统，客户流失预测或市场预测。那就是深度学习的优势所在。因此，通过应用深度学习，企业将面临的许多古老而棘手的问题将得到改变。

JP：我看到最多的是问题大数据浪潮中各种用例的混合，然后是由于更精确的模型使其在生产中可行而从企业研究中出现的问题。大数据用例的一个例子是使用事务性数据的任何事物，我们通常将这些事物存储在Hadoop中。 DL4J在Spark上本地运行，因此它可以轻松安全地构建带有长短期记忆（LSTM）循环神经网络的模型，用于交易传感器数据。新的用例包括使用CNN进行高级图像建模，在此我们可以帮助企业分析场景中的对象，该场景在零售等领域具有应用。

向我们的听众介绍深度学习4 Java（DL4J）。它具有什么功能？与TensorFlow和/或其他值得注意的DL框架相比有什么特点？

AG：首先要注意的是Deeplearning4j得到了商业支持的支持。其他框架没有公司签署服务级别协议来保证其性能。其余的只是库，如果您的任务关键型应用程序崩溃了，那么，祝您好运。如果您使用Deeplearning4j，Skymind会为您提供电话号码。这是设计时考虑到企业的唯一框架。

其次，Deeplearning4j专注于Java和Scala，并与Hadoop，Spark，Akka和Kafka等Java虚拟机（JVM）堆栈集成。其他库是Python或Lua，并且在没有大量定制的情况下无法很好地部署到生产环境中。 Deeplearning4j捆绑在称为Skymind Intelligence Layer或SKIL的企业发行版中。 SKIL经过docker化，并在数据中心操作系统（DCOS）和Mesos之上运行。因此，它与平台无关，并带有资源管理。那是独一无二的。许多云供应商正在设计与平台无关的库，因此您将需要锁定和转换成本。 SKIL包含一种微服务部署方法，您可以在其中灵活地自动缩放我们的推理模型，以处理大量流量。

最后，Deeplearning4j包括深度强化学习以及神经网络。这就是今年击败围棋冠军的面向目标算法。

JP： 《财富》 500强企业在深度学习方面需要的东西是一种使深度学习的力量民主化并以其使用方式的方式，就像看到Facebook和Google等商店那样使用它。我们在Hadoop和大数据上看到了这一点，其中财富500强公司希望使用Yahoo这样的类似技术，但他们需要的版本与他们运行数据中心的方式兼容。这产生了Hadoop发行版，例如Cloudera发行版，包括Apache Hadoop（CDH）和Hortonworks Data Platform（HDP）。以类似的方式，我们看到DL4J担当了这个角色，并且IT部门可以轻松安全地运行它，同时仍然能够在他们的Hadoop投资的基础上使用Spark和图形处理单元（GPU）构建高级模型。我已经做了。

我需要什么样的背景才能从事DL？我该如何开始？我应该首先学习非基于DL的机器学习吗？

AG：我们看到了构建机器学习解决方案所需技能的转变。诸如随机森林或梯度增强机（GBM）之类的传统算法可能需要大量的特征工程。也就是说，您需要作为领域专家的要素工程师来告诉算法要寻找的内容。这些工程师人数不足，因此这是使机器学习更加普及的真正瓶颈。而且，没有什么要学习如何在不再先进的算法上进行特征工程的知识。

深度学习有所不同，因为神经网络会自动提取特征。您不必告诉他们要寻找什么。现在，必要的技能包括调整那些网络的超参数。有很多最佳实践。我们通过本书和我们的工作坊教人们如何做到这一点，许多人通过加入我们的开源社区来学习。

JP：深度学习需要对统计和线性代数的基础知识进行一些投资。但是，随着技能的稳步发展，可能只是对成为基本从业人员感兴趣的人就职了。在这种程度上，我和亚当与奥赖利（O'Reilly）的《 深度学习，从业者的方法》 （ The Deep Learning，A Practitioner's Approach）共同写了一本书，专门针对任何愿意参加此旅程的人。

为了满足市场对更高级和智能应用程序的需求，我们需要进一步使深度学习的概念民主化。我们觉得这本书对于从业者来说是一个不错的选择，可以帮助他们逐步熟悉深度学习的概念。

我希望从您的书中学到什么？谁是您的目标受众？

AG：一方面，我们的目标受众包括从深度学习入手的人员：他们可能是数据工程师和架构师，Java系统工程师或想要了解其原理并了解其适用范围的商人。另一方面，我们写了一本书，将教深度学习专家如何通过使用JVM工具扩展神经网络将其部署到生产中。他们可能还会学到其他技巧。

机器学习和深度学习应用程序市场在某些方面类似于1990年代HTML和Web扩展到几乎所有内容的方式。本书的设计适用于所有级别，从具有Java基本经验的人员到博士研究人员，他们只需要一整套有关神经网络调整技巧的章节即可。较新的用户将希望从第1章开始阅读，并从头到尾阅读这本书，而高级用户则可能只希望阅读两个调优章节。神经网络和深度网络调整不仅限于DL4J，而且这些章节适用于任何深度学习框架。我们还花时间讨论提取，转换，加载（ETL）和矢量化技术，这些在现实世界中的机器学习建模的实际工作流程中很重要。我们以关于Spark的一章作为本书的结尾，并说明了DL4J的代码如何在不做任何更改的情况下迁移到Spark，然后看了一些示例。关于“什么是人工智能？”的主题，有十多个附录章节。强化学习入门。

Skymind是如何开始的？如何在基于DL4J之类的开源项目上开展业务？

AG： Skymind于2014年初开始运营。我和Chris的共同创始人共同认为，企业需要开放源代码人工智能（AI）层，就像它具有用于Hadoop或Linux操作系统的大数据存储的开放源代码层一样。似乎人工智能层具有创造潜力的潜力。 Josh帮助我们看到了这一点。因此，与他一起，我们创建了Deeplearning4j，自那时以来，它已成为JVM最大的深度学习框架。我们遵循的是典型的开放核心手册：Skymind确实为我们的企业发行版Skymind Intelligence Layer提供支持，培训和服务。每个开放源代码业务都在某处划清界限，而SKIL也捆绑了几个封闭源代码包。我们通过发行版帮助大公司构建深度学习解决方案，该发行版可以轻松部署到他们拥有的堆栈中。而且由于是Java，因此他们可以利用现有团队来使用它。

JP：我想我们已经在当今机器学习的流行趋势与财富500强IT部门在生产中合理运行之间的合理位置之间找到了一个有趣的地方。

我听说DL需要真正的高端硬件和大量GPU，典型部署是什么样的？

AG：我们的客户只有中央处理器（CPU），我们的客户只有GPU。 GPU确实对图像处理特别是深度学习的训练阶段很有帮助。使用神经网络，首先要训练它们，然后使用它们来推断数据。训练阶段需要大量计算，因此，如果您想快速获得训练好的模型，则应考虑使用GPU。推理阶段可以通过CPU完成。您可以在两个阶段同时使用两种芯片，但是要在大型数据集上进行训练，多GPU配置很方便。

JP：我觉得我们是一家商店，正在使GPU成为数据仓库的实用选择。 Adam在ND4J方面做得很出色，使从CPU到GPU的切换变得如此简单和无缝，以至用户以后不必再做出这些芯片决定。有了ND4J，芯片决策就变成了“更快的培训使它成为更好的业务案例吗？”的功能。当答案为“是”时，它将为我们的GPU供应商朋友创造一个有趣的机会。

机器学习通常需要在后台进行“人在回路中”的工作，以清理和注释数据，调整参数并验证结果。获取基于DL的生产解决方案的典型工作流程是什么样的？

AG：是的。您需要收集相关数据，使其可访问，并确保其足够干净以向算法传授知识。深度神经网络可以在非常大的数据集中容忍大量噪声，因此清理并不像以前在较小的数据集上那么重要。如果要构建分类器，则需要带注释的数据，这是人们使用Mechanical Turk或CrowdAI之类的初创公司解决的问题。实际上，我们使用cats整理了典型数据工作流程的图像，这很有趣。获得数据后，您将进入神经网络的调整和训练阶段。这是迭代的。您调整超参数并设置架构，然后查看网络是否学习。泡沫，冲洗，重复。这就是为什么GPU在训练阶段非常有用的原因，因为您想快速迭代，而不是闲逛。最后，您针对从未见过的数据测试模型，如果数据通过测试，则可以在实际环境中进行测试。

JP：从实际出发，我们知道ETL和矢量化对于大多数财富500强机器学习团队来说都很难。考虑到这一点，我们既在书中专门写了一章，又在DL4J套件DataVec中构建了一个特定的工具来处理这些功能。 DataVec允许我们从原始数据创建复杂的多维矢量和张量输入到DL4J。它还允许在矢量化的准备和清除阶段执行许多常见的ETL功能。 DataVec可以在本地笔记本电脑上运行，也可以作为Hadoop集群上的Spark应用程序本地运行。 GitHub存储库和本书中的所有示例均使用DataVec作为选择的矢量化工具。

现在在这个领域有很多炒作。您如何在不追逐自己的尾巴或不关注真实事物的情况下利用它做生意？

AG：公司对此领域的宣传和喧闹声很多，但并不是很认真。每个初创公司都知道他们可以说自己做AI，而实际上只是逻辑回归，就可以使自己的估值增加20％。我担心解决方案提供商会因承诺过多和交付不足而使这里的油井中毒。早期因人工智能而陷入困境的企业不会再回来，这会伤害到所有人。他们应该做功课并获得参考。我们在深度学习中取得的进步是真实的，它们将以我们未来几年甚至无法预料的方式改变社会和商业。阅读的人越多，他们就会看到越多的公司和初创公司将AI作为其使命。我们是一家纯粹的深度学习创业公司。我们已经为此进行了多年努力，拥有成千上万的用户。我们专注于为我们的用户和客户提供良好的体验，通过支持和更好的产品使他们成功。我们听取他们的意见，并解决他们面临的问题。最终，其他人注意到我们已经解决了他们遇到的重大问题，例如使用Spark进行分布式培训，为JVM带来硬件加速，为JVM构建Numpy和Cython以及简化生产部署。那是橡胶与道路相遇的地方。

JP：我经历了智能电网，云，大数据以及现在的深度学习浪潮。这些浪潮很像海洋浪潮，它们进入了市场，每个人都热衷于营销主题，然后浪潮消散，许多没有充分扎根的事情被席卷了。这些人会保持自己的头并在高潮中找到坚实的立足点，当潮汐消失时，他们可以维持自己的生命。

在Skymind，我们专注于客户和合作伙伴，专注于他们今天遇到的实际问题。我们竭尽全力避免出现在未来12个月内无法投入生产或仅在某些新闻稿中发布的内容。上个月，我们不一定总是有一个新的网络体系结构变体，但是我们将成为企业深度学习的平台，它是财富500强中最安全，最可互操作且最容易使用的平台。

我们正在积极寻找方法，以帮助财富500强企业实现其在大数据基础架构上的投资回报（例如，我们与Hadoop和Spark的早期集成）。从概念验证过程到GitHub存储库，再到本书，一切都集中在这种思想和方向上。