SPSS 平台概述
与大数据集成的 SPSS 软件组件:
SPSS Modeler
SPSS Analytic Server
SPSS Collaboration and Deployment Services
SPSS Analytic Catalyst
SPSS Modeler 是一个数据挖掘工作台,用于分析数据和部署分析资产。通用术语分析资产 用于描述解决某个业务问题的一个操作集合。数据科学家在描述使用数据挖掘工具开发的资产时,通常会使用术语模型 或预测模型。除了模型之外,SPSS 分析资产还可包含数据准备步骤和业务规则。图 1 显示了 SPSS Modeler 中开发的一个示例分析资产。在此示例中,我们使用一个决策树模型来执行贷款违约预测。分析资产执行以下操作:
合并来自 3 个历史数据源的数据
使用一个
Type
节点识别用于模型预测的目标变量 (MortgageDefault
)构建一个基于 C5.0 决策树算法的模型
选择具有积极的贷款违约预测的记录
将结果显示在一个表中
图 1. SPSS Modeler 中开发的分析资产
SPSS Modeler 是一个可视编程环境。分析资产可通过连接画布上的可视编程节点来创建;在运行时,节点按照连接箭头的方向执行。节点可按照相关功能进行组织:Sources、Record Operations、Field Operations、Modeling 等。Modeling 选项卡显示用于生成模型的算法(参见图 2)。SPSS 发布了 27 个建模算法和整套的节点,对一个数据集运行多种算法并选择最佳的节点。除了所描述的可视节点之外,如果分析师希望扩展 SPS