将 SPSS 分析技术应用于大数据

最新推荐文章于 2021-06-09 00:47:38 发布

miller_lover

最新推荐文章于 2021-06-09 00:47:38 发布

阅读量3.4k

点赞数

分类专栏： big data 文章标签： bigdata IBM SPSS

big data 专栏收录该内容

101 篇文章 0 订阅

订阅专栏

试用SPSS with IBMNetezza、InfoSphereBigInsights 和InfoSphere Streams执行大规模分析

了解SPSS®中处理大数据的新功能。现在可以对SPSS分析资产轻松地进行修改，以便连接到不同的大数据来源，它们还可以在不同的部署模式（批处理或实时模式）下运行。SPSS平台的组件现在可与IBMNetezza、InfoSphere®BigInsights™和InfoSphereStreams 结合使用，以支持分析师对大数据使用强大的分析工具。

数十年来，IBMSPSS 为统计人员和数据科学家提供了强大的工具。多年来，SPSS平台已发生了演变，支持数据挖掘流程的所有阶段，包括模型开发、模型部署和模型刷新。在过去两年，SPSS中增加了处理大数据的新功能。本文将介绍SPSS如何与IBM大数据产品组合的3个组件相集成：Netezza、InfoSphereBigInsights 和InfoSphereStreams。

SPSS平台概述

与大数据集成的SPSS软件组件：

SPSSModeler

SPSSAnalytic Server

SPSSCollaboration and Deployment Services

SPSSAnalytic Catalyst

SPSSModeler 是一个数据挖掘工作台，用于分析数据和部署分析资产。通用术语分析资产用于描述解决某个业务问题的一个操作集合。数据科学家在描述使用数据挖掘工具开发的资产时，通常会使用术语模型或预测模型。除了模型之外，SPSS分析资产还可包含数据准备步骤和业务规则。图1显示了SPSSModeler 中开发的一个示例分析资产。在此示例中，我们使用一个决策树模型来执行贷款违约预测。分析资产执行以下操作：

合并来自3个历史数据源的数据

使用一个 Type 节点识别用于模型预测的目标变量(MortgageDefault)

构建一个基于C5.0决策树算法的模型

选择具有积极的贷款违约预测的记录

将结果显示在一个表中

图1.SPSS Modeler 中开发的分析资产

SPSSModeler是一个可视编程环境。分析资产可通过连接画布上的可视编程节点来创建；在运行时，节点按照连接箭头的方向执行。节点可按照相关功能进行组织：Sources、RecordOperations、FieldOperations、Modeling 等。Modeling 选项卡显示用于生成模型的算法（参见图2）。SPSS发布了27个建模算法和整套的节点，对一个数据集运行多种算法并选择最佳的节点。除了所描述的可视节点之外，如果分析师希望扩展SPSSModeler 的基本功能，那么他们可以使用SQL函数、R模型和自定义开发的节点。

图2.包含生成模型的算法的Modeling选项卡

分析师使用历史数据来构建模型。创建模型后，分析师会修改分析资产，以便对操作数据进行评分（参见图3）。我们不再需要MortgageDefault 数据源，因为它包含历史数据。我们删除了 Type 和 DecisionTree 算法节点。C5决策树算法节点用于构建模型。创建的模型用金块图标表示(MortgageDefault)。分析师将 Table 节点替换为一个 Export 节点，这会将数据写入一个数据库表中。现在可以将这个分析资产用于对新贷款申请进行批量或实时评分。

图3.包含 Type、DecisionTree 并删除了MortgageDefault 数据源的已修改模型

用于大数据的第二个SPSS组件是SPSSAnalytic Server。它管理对Hadoop数据源的访问，并设计一个Modeler流在Hadoop中的运行。Modeler操作以MapReduce作业的形式在Hadoop中运行，得到一个提供了高性能和高可伸缩性的解决方案。

用于大数据的下一个SPSS组件是SPSSCollaboration and Deployment Services (C&DS)。C&DS执行两种主要功能：

用作分析资产的存储库。在将某项资产存储在存储库中后，就可以使用它来设计批处理作业。该存储库还提供了与InfoSphereStreams 的连接，以便实时更新SPSS模型。

提供一个接口来计划批处理作业，建模使用数据库和Hadoop数据源的刷新作业。

SPSSAnalytic Catalyst 通过一种易于使用的Web接口来执行统计分析。它是为可能没有深入理解数据挖掘的业务用户设计的。SPSSAnalytic Catalyst 向选定的数据源应用多种算法和统计分析技术。结果可以通过可视元素和纯语言解释来呈现。图4显示了一个SPSSAnalytic Catalyst 项目的示例输出。

图4.SPSS Analytic Catalyst 返回对某个数据源的分析的结果

点击查看大图

SPSSAnalytic Catalyst 分析在Hadoop中运行。与Hadoop中现有数据的数据源连接由SPSSAnalytic Server 提供。SPSS与 InfoSphereBigInsights 的集成一节中描述的所有数据源都可以用在SPSSAnalytic Catalyst 中。较小的数据集可通过Web界面加载到SPSSAnalytic Catalyst 中。一个Hadoop发行版是安装SPSSAnalytic Catalyst 的一个必要软件。安装之后，无需额外的集成即可对大数据执行分析。

接下来，让我们深入讲讲SPSS与Netezza、InfoSphereBigInsights 和InfoSphereStreams 的集成。

SPSS与Netezza的集成

Netezza是一个高性能数据仓库。SPSS和Netezza的集成是SPSS的一种典型的大数据集成场景。存储在Netezza中的数据可用于模型构建、评分和模型刷新。

SPSSModeler 通过Netezza所提供的一个开放数据库连接(ODBC)驱动程序连接到Netezza。Netezza中存储的数据可用作一个SPSSModeler 流的输入或输出数据源。SPSSModeler 支持对Netezza执行 SQL推回：在运行时，Modeler流被转换为SQL并在Netezza中执行。SQL推回操作不需要手动将SPSS代码导入Netezza中。导入由SPSS平台自动处理。

除了SQL推回操作之外，SPSS为Netezza提供了一个评分适配器，它允许使用无法转换为SQL的SPSS节点作为Netezza中的用户定义的函数(UDF)。

SPSSModeler 还支持在Netezza数据库中进行挖掘。对于SQL推回操作和评分适配器，SPSSModeler 将会生成代码并在Netezza中运行它。数据库中挖掘节点由Netezza提供并由SPSS调用。所有描述的实现的最终结果都是让性能得到了提升，因为数据无需在Netezza和SPSS服务器之间移动。

用于Netezza数据库中挖掘的建模节点如图5中所示。一些模型可同时用于SPSS和Netezza中，而其他模型是Netezza所独有的。Netezza中的数据库中挖掘节点通过安装INZA包来启用，该包包含在Netezza中。默认情况下，在SPSSModeler 中会提供Netezza数据库中数据挖掘的用户界面：这些节点可通过选择 Tools> Options > Helper Applications 显示在模型面板中。

图5.用于Netezza数据库中数据挖掘的建模节点

SPSS与InfoSphereBigInsights 的集成

InfoSphereBigInsights 是一个企业级的Hadoop发行版。类似于Netezza，与InfoSphereBigInsights 的集成可用在数据挖掘流程的所有阶段。SPSS与InfoSphereBigInsights 的集成由SPSSAnalytic Server 启用。SPSSAnalytic Server 隐藏了访问Hadoop数据源的复杂性，支持分析师对Hadoop中存储的数据应用了SPSSModeler 中提供的所有数据挖掘操作。在SPSSAnalytic Server 中配置后，可通过Modeler中的一个来源节点对Hadoop数据源进行轻松的访问（参见图6）。SPSSAnalytic Server 支持HDFS和HCatalog数据源。HCatalog被用作NoSQL数据源的一个网关，这些数据源包括Hive、HBase、Accumulo、JSON和XML。

InfoSphereBigInsights Quick Start Edition

InfoSphereBigInsights Quick Start Edition 是IBM基于Hadoop的InfoSphereBigInsights 产品的一个可下载的免费版本。使用QuickStart Edition，您可尝试IBM构建的功能来提高开源Hadoop的价值，比如BigSQL、文本分析和BigSheets。引导式学习可让您的学习体验非常顺利，包括循序渐进、自订进度的教程和视频，可帮助您让Hadoop为您工作。没有时间和数据限制，您可以在自己的时间里试验大量数据。观看视频，学习教程(PDF) 和立即下载BigInsightsQuick Start Edition。

图6.在SPSSModeler 来源节点中访问Hadoop数据源

SPSS为多个SPSSModeler 节点提供了 Hadoop中执行功能，这些是支持以MapReduce作业形式在Hadoop内执行操作的节点。以下SPSSModeler 节点支持Hadoop内的执行操作：

大多数数据准备操作模型评分：C&RT、Quest、CHAID、Linear、Regression、NeuralNet、C5.0、Logistic、Genlin、GLMM、Cox、SVM、BayesNet、TwoStep、KNN、DecisionList、Discriminant、SelfLearning、AnomalyDetection、Apriori、Carma、K-Means、Kohonen和TextMining
模型构建：Linear、NeuralNet、C&RT、Chaid和Quest
SPSSAnalytic Server 支持在Hadoop中运行R模型。一个流可同时包含SPSS和R模型。

SPSSAnalytic Server 还提供了与数据库数据源的连接。此特性支持您将数据库和Hadoop数据合并到单个SPSSModeler 流中。在运行时，SPSSAnalytic Server 与SPSSModeler 服务器联合，确定SPSSModeler 流的最佳运行环境（SQL推回操作或Hadoop内的执行操作）。

SPSSAnalytic Server 支持InfoSphereBigInsights 2.0 和2.1、IBMPureData™ for Hadoop 设备、InfoSphereBigInsights with Platform Symphony，以及其他多个Hadoop发行版。

SPSS与InfoSphereStreams 的集成

InfoSphereStreams 是一个处理流数据的IBM平台。在实时处理需要高级分析时会使用SPSS集成。实时应用预测分析的用例的示例包括网络安全、银行和信用卡欺诈检测、预测性维护，以及实时营销产品。

InfoSphereStreams Quick Start Edition

InfoSphereStreams Quick Start Edition 是InfoSphereStreams 的一个免费、可下载的非生产版本，后者是IBM的高性能计算平台，用户开发的应用程序在接收来自数千个实时来源的信息时可以快速地执行获取、分析和关联。没有数据或时间限制，InfoSphereStreams Quick Start Edition支持您在自己的独特环境中试验流计算。构建一个强大的分析平台，它能够处理难以置信的高数据吞吐量，高达每秒数百万个事件或消息。立即下载InfoSphereStreams Quick Start Edition。

InfoSphereStreams 和SPSS集成在数据挖掘生命周期的部署阶段中。模型使用存储在数据库或Hadoop中的历史数据来开发，部署在InfoSphereStreams 中以进行实时评分。InfoSphereStreams 和SPSS的集成由SPSSScoring Toolkit 启用，安装在InfoSphereStreams 中。ScoringToolkit 是SPSSCollaboration and Deployment Services (C&DS) 的一个组件。

在安装该工具包后，InfoSphereStreams 开发人员可使用操作符将SPSS分析资产与InfoSphereStreams 应用程序相集成。publish 操作符在应用程序开发阶段用来获取适合InfoSphereStreams 部署的SPSS模型。scoring 操作符在运行时用于调用SPSS模型。repository 操作符可用于自动从SPSS模型存储库拉取模型的最新版本。图7显示了SPSS与InfoSphereStreams 运行时的集成的图表。

图7.SPSS 与InfoSphereStreams 的运行时集成图

结束语

SPSS平台与Netezza、InfoSphereBigInsights 和InfoSphereStreams 的内置集成能够让分析师使用强大的分析工具处理大数据。SPSS组件（提供了全面的分析功能）和大数据平台（支持可伸缩性和性能）的组合，为大数据开发人员提供了访问SPSS技术的能力。可以轻松地对SPSS分析资产进行修改，以便连接到不同的大数据来源，这些分析资产可以在不同的部署模式（批处理或实时模式）下运行。

miller_lover

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
将 SPSS 分析技术应用于大数据

试用 SPSS with IBM Netezza、InfoSphere BigInsights 和 InfoSphere Streams 执行大规模分析了解 SPSS® 中处理大数据的新功能。现在可以对 SPSS 分析资产轻松地进行修改，以便连接到不同的大数据来源，它们还可以在不同的部署模式（批处理或实时模式）下运行。SPSS 平台的组件现在可与 IBM Netezza、I
复制链接

扫一扫