主流ai框架_强化学习已成为AI的主流

主流ai框架

2018年最值得注意的人工智能趋势之一是强化学习已经成熟,成为构建和训练统计模型以做有用的事情的主流方法。

正如我在今年早些时候解释的那样, 强化学习在企业AI计划中的作用正在扩大 。 该技术突破了传统的机器人技术,游戏和模拟领域,如今在IT运营管理,能源,医疗保健,商业,运输和金融领域的各种尖端AI应用中显而易见。 它甚至是社交媒体,自然语言处理,机器翻译,计算机视觉,数字助理等领域中新一代AI解决方案的组成部分。

[在InfoWorld上深入学习机器学习: 11种必备的机器学习工具 掌握机器学习的13个框架揭秘了机器学习的管道 •回顾: 6个机器学习云您应使用哪个Spark机器学习API? ]

为了加深企业AI中强化学习算法的易用性,开发人员需要用于在这些项目上进行协作并将结果模型部署到生产环境中的工具。 在这方面,最近有大量的行业公告,说明了以增强学习为重点的AI计划的开源工作台,库和devop管道的成熟。

迭代式强化学习开发工作台

强化学习的许多进步要么通过我们视为理所当然的主流应用程序(例如多人在线游戏),要么是具有未来派风格(例如机器人技术 )以至于我们没有意识到它们正逐渐成为主流的用例,逐渐渗入我们的生活。 强化学习代理现在可以以超人的水平玩游戏,例如在开放式AI五人制比赛中。

开发人员可以利用不断增长的用于游戏和机器人技术的开源增强学习框架,包括OpenAI的Roboschool ,Unity Technology的机器学习代理和英特尔的Nervana Coach 。 而且,您还可以访问可扩展到各种挑战的开源增强学习框架。 例如,Google的TensorFlow代理支持高效的批量增强学习工作流,而UC Berkeley的Ray RLLib提供了基于任务的灵活编程模型,可用于在TensorFlow和PyTorch中构建基于代理的增强学习应用程序。

许多AI开发人员的建模工具包中缺少的是一个快速的,迭代的强化学习工作台,该工作台与现有的AI框架集成在一起,并且能够应对各种建模和培训挑战。 为了解决这种情况,Google最近发布了Dopamine ,这是一个基于TensorFlow的框架和代码库,可用于Python 2.7中增强学习算法的快速,迭代原型设计。 多巴胺在GitHub的“酷开源项目内部排名中名列前茅 ,它支持以下核心功能

  • 对新的研究思路强化学习实验开发:多巴胺包括紧凑,证据充分的Python代码,重点对商场学习环境 (一个成熟的,易于理解的基准)和四个价值为基础的药物在单GPU的环境中执行: 深Q-Networks (DQN), C51彩虹代理的精心策划的简化变体)和隐式分位数网络代理
  • 从强化学习实验中获得可重现的结果:多巴胺包括完整的测试套件,并为Arcade学习环境实现了标准的经验框架。
  • 根据既定的训练方法对强化学习结果进行基准测试:多巴胺包含Arcade学习环境支持的60个游戏中四个提供的特工的完整训练数据 ,可作为Python文件提供给受我们框架训练的特工,也可作为JSON数据文件与特工进行比较在其他框架中进行培训 的网站 ,以及用于可视化所有60种游戏中所有提供的代理商的培训运行 的网站
  • 强化学习开发团队的加速器使用该框架:多巴胺包括一组合作实验室 ,阐明了如何创建,培训和基准化在框架中创建的强化学习代理。 它还包括可下载的经过训练的深度网络,原始统计日志以及用于使用Tensorboard进行绘图的Tensorflow事件文件。

模块化强化学习剂开发库

强化学习的进展取决于构建能够在各种现实情况中自主采取最佳行动的智能代理。

人工智能研究人员不断推动由受过训练的强化学习模型提供支持的智能,分布式智能体的发展。 例如,加州大学伯克利分校最近发表了有关分布式代理环境中的循环迭代式强化学习加速的研究。 它涉及一次训练一个代理模块,而其他的则遵循简单的脚本行为,然后环境“用神经网络策略替换另一个模块的脚本组件,该神经网络策略将继续训练,而先前训练的模块保持固定。”

为了加速开发优化强化学习的智能AI机器人,Google的DeepMind小组最近开放了TRFL的源代码TRFL是一个新的构建库库 ,用于在TensorFlow中开发强化学习代理。 它包括算法,损失函数和其他强化学习操作,DeepMind的研究工程团队已在内部使用这些算法,成功的强化学习代理,例如DQN,深度确定性策略梯度(DDPG)和重要性加权Actor学习者体系结构。 这些构建块可用于使用一致的API来构建新的强化学习代理。

DeepMind还是开放式的完整增强学习代理实现,包括诸如表示值和策略的深层网络计算图以及环境的学习模型,伪奖励功能和重播系统之类的组件。 这样做是为了帮助强化学习社区更快地识别和修复这些代理中的错误,同时通过使用这些代理的强化学习项目提高社区中结果的可重复性。 DeepMind将继续维护,添加新功能并接受社区对 TRFL库的贡献

端到端强化学习devops管道工具

强化学习建模通常是从生产应用程序脱机完成的,只有在模拟器中证明了经过训练的模型之后,这些训练的模型才会投入到运营环境中。

随着强化学习成为更多AI应用程序的基础,建模框架需要发展以处理更多在线在线应用程序的培训。 与其他AI方法一样,更多强化学习计划已集成到devops管道中,以驱动数据准备,建模,培训和其他管道工作量。

考虑到这一点,Facebook最近开放了其增强学习工具套件Horizo​​n的开源,该工具套件旨在部署到AI devops管道中。 开源Horizo​​n代码通过GitHub 下载 。 Horizo​​n整合了Facebook已经在可扩展的生产应用程序中使用的强化学习技术。 例如,社交媒体巨头在生产AI应用程序中使用强化学习,例如预测用户最可能响应的通知,个性化来自Facebook虚拟消息助手的建议,以及根据用户的位置或用户确定流向用户的视频质量级别。细胞信号的强度。

Horizo​​n是针对以强化学习为重点的AI项目的端到端管道,这些项目的数据集很大,目标应用程序的反馈循环较慢,并且强化学习实验失败的商业风险很高,因为它们涉及生产应用程序。 它支持在高维离散和连续动作空间中进行强化学习建模。 它包括具有离散体系结构的DQN实现(用于离散操作空间)和具有DDPG的实现(用于连续操作空间)。 它包含用于在多GPU分布式环境中训练流行的深度强化学习算法的自动化工作流,以及用于在单台机器上进行CPU,GPU和多GPU训练的自动化工作流。 它包括用于数据预处理,功能规范化,分布式培训和优化服务的实用程序。

根据Facebook的规模要求,Horizo​​n旨在支持对应用程序进行强化学习建模和培训,这些应用程序的数据集可能具有数百甚至数千个要素类型,每个要素类型都有独特的统计分布。 它使用Spark进行数据准备和降维,使用PyTorch框架进行强化学习建模和培训,并使用Caffe2 AI框架和Open Neural Network Exchange进行强化学习模型,以服务于成千上万的生产环境。

为了减轻将次优强化学习模型部署到生产应用程序中的风险,Horizo​​n引入了一项称为“ 反事实策略评估 ”的功能,该功能使数据科学家可以在部署经过训练的模型之前离线评估强化学习算法的性能。 如果没有这种自动功能,开发人员将需要进行昂贵且耗时的A / B测试,以在众多候选人中搜索最佳的强化学习模型和超参数。 在强化学习训练工作流中,Horizo​​n使用反事实策略评估方法(例如逐步重要性抽样估计器,逐步直接采样估计器,逐步双稳健估计器和顺序双稳健估计器)对训练过的模型进行评分。

为了支持增强学习算法性能的测试,Facebook已将Horizo​​n与流行的基准测试库OpenAI Gym的Cartpole和Pendulum环境以及自定义的Gridworld环境进行了集成。 Horizo​​n包含用于进行数据预处理,功能标准化和其他Horizo​​n强化学习建模,培训和服务功能的单元,集成和性能测试的工具。 它评估具有不同配置的离散行动DQN,参量行动DQN和DDPG模型,例如使用Q学习与SARSA,或者有或没有双重Q学习,以确保强化学习模型的鲁棒性和正确性。 它对目标平台的预构建Docker映像执行集成测试。

工具在这里开始动手学习

如果您是AI开发人员,则此处列出的许多算法可能仍然不熟悉。 但是,您可能已经开始将强化学习纳入您的开发计划中,并且至少要涉足开源工具。

在2019年,您可以期望AI行业将最广泛采用的强化学习框架纳入其工作平台。 随着卷积神经网络和递归神经网络在监督学习环境中的普及,主流开发人员将更加熟悉这些方法。

不久之后,大多数AI开发人员工作流将无缝地将强化学习与有监督和无监督的学习结合起来,以在生产企业应用程序中支持更复杂的嵌入式智能。

翻译自: https://www.infoworld.com/article/3324480/reinforcement-learning-comes-into-ais-mainstream.html

主流ai框架

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值