mapr 如何与ad认证_如何将Apache PredictionIO与MapR集成以进行可行的机器学习

mapr 如何与ad认证

PredictionIO是一种开源机器学习服务器,是Apache系列的最新成员。 PredictionIO允许您:

  • 使用可自定义的模板在生产中快速构建和部署引擎作为Web服务
  • 部署为Web服务后实时响应动态查询
  • 系统地评估和调整多种发动机变体
  • 批量或实时统一来自多个平台的数据,以进行全面的预测分析
  • 通过系统的流程和预先建立的评估措施来加速机器学习建模
  • 支持机器学习和数据处理库,例如Spark MLlib和OpenNLP
  • 实施您自己的机器学习模型并将其无缝整合到您的引擎中
  • 简化数据基础架构管理

PredictionIO与HBase捆绑在一起,并用作事件数据存储来管理机器学习模型的数据基础结构。 在此集成任务中,我们将在MapR融合数据平台内使用MapR-DB替换HBase。 MapR-DB直接在MapR文件系统中实现。 由此产生的优点是,在对数据执行操作时,MapR-DB没有中间层。 MapR-DB在MapR-FS进程中运行,并直接读取/写入磁盘。 HBase主要在HDFS上运行,它需要通过JVM和HDFS进行通信,并且还与Linux文件系统进行通信以执行读/写操作。 在MapR文档中可以找到更多优点。

要在MapR-DB中使用,需要在PredictionIO中修改几行代码。 我创建了一个与MapR 5.1和Spark 1.6.1兼容的分支版本。 Github链接在这里

制备

前提条件是您正在运行MapR 5.1集群,其中已安装Spark 1.6.1和ElasticSearch服务器。 我们将MapR-DB(1.1.1)用于事件数据存储,将ElasticSearch用于元数据存储,将MapR-FS用于模型数据存储。 在MapR-DB中,没有HBase命名空间概念,因此表层次结构基于MapR文件系统的层次结构。 但是MapR支持HBase的名称空间映射(详细链接在此处 )。 请注意,从MapR 5.1开始,core-site.xml位于“ /opt/mapr/hadoop/hadoop-2.7.0/etc/hadoop/”,您应该修改core-site.xml并添加如下配置。 另外,请在您选择的路径上创建专用的MapR卷。

<property>
  <name>hbase.table.namespace.mappings</name>
  <value>*:/hbase_tables</value>
 </property>

然后我们下载并编译PredictionIO:

git clone https://github.com/mengdong/mapr-predictionio.git
cd mapr-predictionio 
git checkout mapr
./make-distribution.sh

编译后,应该创建了一个文件“ PredictionIO-0.10.0-SNAPSHOT.tar.gz”。 将其复制到临时路径并将其解压缩,然后将jar文件“ pio-assembly-0.10.0-SNAPSHOT.jar”复制回“ mapr-predictionio”文件夹下的“ lib”目录。

由于我们要使用MapR 5.1,因此我们要确保包含正确的类路径。 我在回购中编辑了“ bin / pio-class”以包含必要的更改,但是您的环境可能会有所不同,因此请进行相应的编辑。 还需要创建“ conf / pio-env.sh”。 我有一个模板供参考:

可操作机器学习1

至此,准备工作基本完成。 我们应该将PredictionIO的“ bin”文件夹添加到路径中。 只需运行“ pio status”,即可查看设置是否成功。 如果一切顺利,则应观察以下日志:

行动机器学习2

这意味着可以运行“ bin / pio-start-all”来启动PredictionIO控制台。 如果成功运行,则可以只运行“ jps”,并且应该观察到“控制台” jvm。

部署机器学习

PredictionIO的一项出色功能是易于开发/培训/部署机器学习应用程序以及执行模型更新和模型管理。 有许多模板可供演示; 例如: http : //predictionio.incubator.apache.org/demo/textclassification/

但是,由于最近迁移到Apache家族,这些链接已断开。 我创建了一个分叉的仓库,以使几个模板正常工作。 一个https://github.com/mengdong/template-scala-parallel-classification用于http://predictionio.incubator.apache.org/demo/textclassification/ ,这是一种经过逻辑回归的训练,可以对垃圾邮件进行二进制分类。

另一个https://github.com/mengdong/template-scala-parallel-similarproduct用于http://predictionio.incubator.apache.org/templates/similarproduct/quickstart/ ,它是针对用户和物品的推荐引擎。 您可以克隆我的分叉存储库,而不使用“ pio template get”,也可以将“ src”文件夹和“ build.sbt”复制到“ pio template get”位置。 如果进行复制,请修改Scala代码中的软件包名称,以使其与模板获取期间的输入相匹配。

其他所有内容都可以在ForecastIO教程中使用。 我相信这些链接也会很快修复。 只需按照教程将引擎注册到PredictionIO应用程序即可。 然后训练机器学习模型,并进一步部署该模型并通过REST服务或SDK(当前支持python / java / php / ruby​​)使用它。 您还可以使用Spark和PredictionIO来开发自己的模型,以使用MapR-DB作为后端。

翻译自: https://www.javacodegeeks.com/2016/08/integrate-apache-predictionio-mapr-actionable-machine-learning.html

mapr 如何与ad认证

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值