MMLSpark:微软开源的用于Spark的深度学习库

转载 2017年10月24日 13:56:09

MMLSpark为Apache Spark提供了大量深度学习和数据科学工具,包括将Spark Machine Learning管道与Microsoft Cognitive Toolkit(CNTK)和OpenCV进行无缝集成,使您能够快速创建功能强大,高度可扩展的大型图像和文本数据集分析预测模型。
MMLSpark需要Scala 2.11,Spark 2.1+,以及Python 2.7或Python 3.5+。
显着特点
从 HDFS 轻松摄取图像到Spark DataFrame(示例:301)
使用 OpenCV 进行转换的预处理图像数据(示例:302)
使用 CNTK 进行预训练的深层神经网络(示例:301)
使用来自 Keras 预先训练的双向LSTM进行医疗实体提取(示例:304)
在Azure上的N系列GPU虚拟机上训练基于DNN的图像分类模型
通过单个变换器在SparkML中的基元上方使用方便的API实现自由格式的文本数据(示例:201)
列车分类和回归模型容易通过数据的隐式特征化(示例:101)
计算一组丰富的评估指标,包括每个实例的指标(示例:102)
所有的示例可以参见:https://github.com/Azure/mmlspark/tree/master/notebooks/samples
一个简单的示例
以下是使用预先训练的CNN在CIFAR-10数据集中分类图像的简单示例的摘录。完整的代码参见:https://github.com/Azure/mmlspark/blob/master/notebooks/samples/301%20-%20CIFAR10%20CNTK%20CNN%20Evaluation.ipynb
   


 

安装
Docker
使用MMLSpark 的最简单方法是通过预先编译好的Docker container,为了使用它,你先要运行下面的命令:
docker run -it -p 8888:8888 -e ACCEPT_EULA=yes microsoft/mmlspark
然后通过浏览器访问http://localhost:8888,这里我们可以运行简单的示例代码,更详细的使用请参见官方文档:https://github.com/Azure/mmlspark/blob/master/docs/docker.md
Spark package
当然,除了在Docker container里面使用MMLSpark 之外,我们还可以直接通过--packages 选项直接在现有的Spark集群中使用MMLSpark,具体如下:



  更多关于MMLSpark的使用和介绍,请参见官方文档或者到大讲台下载。

Spark上的深度学习库MMLSpark 介绍

6 月 2 日,微软正式发布微软认知工具包(Microsoft Cognitive Toolkit,曾用名 CNTK) 2.0 版本。2.0 完整版适用于生产级和企业级的深度学习工作负载,包含自测试版...
  • lovebyz
  • lovebyz
  • 2017年10月24日 14:06
  • 341

ORACLE数据库的备份恢复(4)

RMAN简介与配置 RMAN是自动管理的备份恢复。它功能强大,使用起来虽然比手动管理的备份恢复有些繁琐,但当你全部掌握RMAN的功能后就会发现,它其实是比手动管理的备份恢复要简单的。 还有值得称道...
  • xiaoxing1521025
  • xiaoxing1521025
  • 2014年08月25日 15:03
  • 1090

使用Spark构建聚类模型

将使用一个模型(推荐模型)的输出作为另外一个模型(聚类模型)的输入 import org.apache.spark.mllib.clustering.KMeans import org.apach...
  • lovebyz
  • lovebyz
  • 2016年05月01日 15:53
  • 2250

Spark在线广告点击预测

* 在线广告点击预测,若网页中广告发生点击计为1,否则0. * 每次曝光的特征向量由曝光事件的相关特征变量组成(如:用户、URL、网页id、网页内容、广告、广告客户、设备类型、事件、地理位置等其...
  • lovebyz
  • lovebyz
  • 2016年06月30日 16:42
  • 989

ORACLE介质管理库MML

Oracle 10g中的RMAN 使用程序主要关注的是将磁盘备份作为介质恢复解决方案的最佳方法。 随着磁盘价格的下跌,大量的存储区网络(Storage Area Network:SAN)已经在很多数据...
  • u011616400
  • u011616400
  • 2014年09月30日 22:19
  • 378

Spark应用程序运行的日志存在哪里

spark应用程序运行日志
  • u011878191
  • u011878191
  • 2015年05月21日 14:00
  • 5757

[Spark优化]在Spark中使用Kryo序列化

conf.set(“spark.serializer”, “org.apache.spark.serializer.KryoSerializer”) conf.registerKryoClasses...
  • lovebyz
  • lovebyz
  • 2016年05月10日 21:26
  • 6331

「官文译」Spark 结构Streaming-2.1.1 + Kafka 集成指南 (Kafka broker version 0.10.0 or higher)

创建Kafka源(Batch批次) 源中的每一行都具有以下模式: Each row in the source has the following schema: Column Type...
  • lovebyz
  • lovebyz
  • 2017年07月11日 15:47
  • 792

Spark介绍与安装教程(Linux系统)

简单的Spark介绍,以及相当简单的安装教程。
  • lin360580306
  • lin360580306
  • 2016年04月24日 14:09
  • 26657

spark的核心思路、适用场景是什么?

1.Spark的核心思路是什么? 2.Spark的适用场景是什么? 首先,MapReduce-like是说架构上和多数分布式计算框架类似,Spark有分配任务的主节点(Dr...
  • ichsonx
  • ichsonx
  • 2015年03月22日 21:09
  • 2498
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:MMLSpark:微软开源的用于Spark的深度学习库
举报原因:
原因补充:

(最多只允许输入30个字)