机器学习算法简化数据集_7种云服务可简化机器学习

机器学习算法简化数据集

数据分析是最后被吸纳到云中的繁琐工作之一。 也许是因为科学家天生擅长编程,因此他们喜欢在办公桌上有一台机器。 也许是因为实验室设备直接连接到计算机以记录数据。 也许是因为数据集可能太大,以至于移动它们非常耗时。

无论出于何种原因,科学家和数据分析人员都慢慢接受了远程计算,但是它们正在普及。 用于机器学习,人工智能和数据分析的基于云的工具正在增长。 其中某些原因引起了人们对基于云的文档编辑和电子邮件的兴趣。 团队可以从任何计算机登录中央存储库,并在偏远地区,在路上甚至在海滩上进行工作。 云处理备份和同步,简化了该组的所有工作。

[在InfoWorld上深入学习机器学习: 11种必备的机器学习工具 掌握机器学习的13个框架揭秘了机器学习的管道 •回顾: 6个机器学习云您应使用哪个Spark机器学习API? ]

但是,还有一些实际的原因,为什么云对数据分析的性能更好。 当数据集很大时,云用户可以在租用的硬件上缓存大量工作,从而大大,更快地完成工作。 无需启动计算机,然后出去吃午饭,而只是回来几个小时后发现工作失败。 现在,您可以按一下按钮,启动数十个装有大量内存的云实例,并在几分钟内观察代码失败。 由于云现在可以秒速计费,因此可以节省时间和金钱。

也有危险。 最大的是对隐私的不确定性担忧。 一些数据分析涉及信任您的主题的个人信息,以保护他们。 我们已经习惯了将数据锁定在实验室硬盘中所涉及的安全问题。 很难知道云中到底发生了什么。

我们需要一段时间才能适应云提供商使用的最佳实践,但是人们已经认识到,也许云提供商可以雇用比实验室角落的研究生更多的安全顾问。 并不是说个人计算机可以抵抗病毒或其他后门。 如果个人计算机已连接到Internet,那么您可能会说它已经是云的一部分。

幸运的是,有一些解决方法。 最简单的方法是使用随机ID替换个人信息之类的技术来匿名化数据 。 这不是完美的,但是它可以大大限制任何黑客在攻克云防御后可能造成的麻烦。

还有其他有趣的优点。 小组可以向公众共享或开放源数据集,这会产生我们只能开始想象的疯狂组合。 一些云提供商正在策划自己的数据集并捐赠存储成本以吸引用户(初学者请参阅AWSAzureGCPIBM )。 如果愿意,您可以尝试将产品销售与天气或太阳斑或这些公共数据集中的任何其他信息相关联。 谁知道? 那里有很多奇怪的相关性

这里有七种不同的基于云的机器学习服务,可帮助您找到数据集中的相关性和信号。

亚马逊SageMaker

亚马逊创建了SageMaker,以简化使用其机器学习工具的工作。 Amazon SageMaker将不同的AWS存储选项(S3,Dynamo,Redshift等)结合在一起,并将数据通过管道传输到运行流行的机器学习库(TensorFlow,MXNet,Chainer等)的Docker容器中。 在最终模型作为自己的API部署之前,可以使用Jupyter笔记本跟踪所有工作。 SageMaker将您的数据移至Amazon的计算机中,因此您可以集中精力考虑算法而不是过程。 如果要在本地运行算法,则为了简化起见,您始终可以下载Docker映像。

Azure机器学习

微软已经看到了机器学习的未来,并全面使用了Machine Learning Studio ,这是一种用于在数据中查找信号的高级图形工具。 就像AI的电子表格一样。 有一个拖放界面,用于建立流程图以使您的数字有意义。 该文档说“不需要编码”,从技术上讲这是正确的,但是您仍然需要像程序员一样思考才能有效地使用它。 您只是不会陷入结构化代码的泥潭。 但是,如果您错过语法错误,数据类型输入和其他编程乐趣,则可以导入用Python,R或其他几个选项编写的模块。

最为有趣的选择是,Microsoft已添加了基础结构,以从AI中汲取教训,并将预测模型转换为在Azure云中运行的Web服务。 因此,您可以构建训练集,创建模型,然后只需单击几下即可从Azure服务以JSON数据包形式提供答案。

BigML

BigML是用于数据分析的混合仪表板,既可以在BigML云中使用,也可以在本地安装。 主界面是一个仪表板,其中列出了所有文件,等待数十个机器学习分类器,聚类器,回归器和异常检测器进行分析。 单击,然后显示结果。

最近,该公司专注于新算法,这些算法增强了堆栈提供有用答案的能力。 新的Fusion代码可以集成多种算法的结果,以提高准确性。

通过订阅,在BigML自己的计算机上可享受免费层的定价 。 您还可以在AWS,Azure或GCP上构建私有部署。 如果仍然太公开,他们会将其部署在您的私有服务器上。

数据块

Databricks工具集是由Apache Spark的一些开发人员构建的,他们采用了开源分析平台,并添加了一些显着的速度增强功能,并通过一些巧妙的压缩和索引增加了吞吐量。 称为Delta的混合数据存储是可以存储大量数据然后进行快速分析的地方。 当新数据到达时,可以将其折叠到旧存储中以进行快速重新分析。

Apache Spark的所有标准化分析例程都可以在此数据上运行,但是对Spark基础结构进行了一些急需的改进,例如用于分析代码的集成笔记本。

Databricks与AWS和Azure集成在一起,并根据消耗量和性能定价。 每个计算引擎均以Databrick单位进行度量。 您需要为更快的模型支付更多费用。

数据机器人

这里的许多方法都可以让您一键构建机器学习模型。 DataRobot吹捧仅需一键即可同时构建数百个模型的功能。 模型制作完成后,您可以选择它们并找出哪个模型可以更好地进行预测并继续使用。 秘诀是“大规模并行处理引擎”,换句话说就是一堆机器在做分析。

DataRobot正在通过实施新算法并扩展现有算法来扩展。 该公司最近收购了Nutonian,后者的Eureqa引擎将增强自动机器学习平台创建时间序列和分类模型的能力。 该系统还为更高级的用户提供了Python API。

可通过DataRobot Cloud或嵌入式工程师随附的企业版软件获得DataRobot。

Google Cloud Machine Learning Engine

Google已对TensorFlow进行了大量投资,TensorFlow是用于在数据中查找信号的标准开源库之一,现在您可以在Google的云中试用TensorFlow。 Google Cloud Machine Learning Engine中的某些工具是开源的,对于那些愿意下载它们的人来说基本上是免费的,而某些则是Google Cloud Platform商业选项的一部分。 这使您可以自由地进行探索和避免锁定,因为许多代码是开源的,并且或多或少可以在任何Mac,Windows或Linux机器上运行。

有几个不同的部分。 最容易开始的地方可能是Colaboratory ,它将Jupyter笔记本与Google的TensorFlow后端连接起来,以便您可以草绘代码并查看其运行情况。 Google还为想要进行实验的科学家提供了TensorFlow研究云 。 在适当的时候,您可以使用GPU或TPU在Google加速的硬件上运行机器学习模型。

IBM Watson Studio

这个品牌的名字可能是在巨大的,隐藏的AI扮演Jeopardy时诞生的,但现在Watson涵盖了IBM在人工智能方面的许多努力。 IBM Watson Studio是用于在云或本地中浏览数据和训练模型的工具。 数据输入输出,仪表板上的漂亮图表可以用于会议室。

最大的不同可能是Watson Studio的桌面版本。 您可以使用基于云的版本来研究数据,并享受弹性资源和集中式存储库附带的所有功能。 或者,您可以从防火墙的隐私和桌面的便利性中做很多事情。

每个云中的机器学习模型

尽管许多人希望为他们的所有AI研究选择一个仪表板,但没有理由您不能在这里使用更多选择。 完成所有预处理和数据清理后,您可以将相同的CSV格式的数据输入所有这些服务中,并比较结果以找到最佳选择。 其中一些服务已经提供了算法之间的自动比较。 为什么不更进一步并使用多个?

您还可以利用不断发展的一些开放标准。 例如,Jupyter笔记本通常无需过多修改即可运行。 您可以在一个平台上进行开发,然后将大量代码与数据一起移动以测试不同平台上的任何新算法或不同算法。

我们距离标准化还有很长的路要走,并且算法之间存在怪异且无法解释的差异。 不要只满足于一种算法或一种训练方法。 尝试使用可以管理的多种不同建模工具。

翻译自: https://www.infoworld.com/article/3313343/7-cloud-services-to-ease-machine-learning.html

机器学习算法简化数据集

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值