IBM SPSS Modeler数据挖掘软件学习笔记
文章平均质量分 71
SPSS Modeler实战系列
Yomi JIN
前路犹漫漫,未来亦可期!
展开
-
SPSS Modeler关联分析实践(第十八章)
上一节,小编和大家一起学习了关联分析的基本概念和关联规则的评价指标,今天,我们一起利用SPSS Modeler软件进行关联分析。使用“Apriori”节点完成。案例:Demo数据文件“BASKETS1n”。数据展示:某超市的会员客户的购物数据,其中包括每名会员的个人信息和购物篮项目。数据流:1. 使用类型节点进行变量角色设定数据样式:表格格式数据(1)把关于会员个人信息变量的角色设为–无。(2)把会员的购物篮项目角色设为–任意。2. Apriori节点设置2.1 字段选项卡事原创 2021-02-23 12:47:06 · 6795 阅读 · 6 评论 -
SPSS Modeler关联分析(第十八章)
通过关联分析,我们将从庞杂的数据中发现事物间潜藏的关联关系。常利用关联规则技术对超市购物篮进行分析,随着数据挖掘技术的不断成熟,关联分析也逐渐被应用于网站分析、气象分析、社交媒体分析等方面。1. 关联分析基本概念将上表的每一行记录称为一个事务。每个事务由事务标识(TID)以及对应的项目组成。如果项集X中包含可k个项目,就称X为k-项集。例如,TID为01的事务,就是一个2-项集,其中包含了啤酒和冻肉两个项目。为了进一步进行关联分析,我们要将数据转换为表格格式或事物格式。一个关联规则通常可以表原创 2021-02-23 11:58:03 · 10291 阅读 · 0 评论 -
SPSS Modeler KNN分类器(第十七章)
分类器算法:积极学习方法:eager learner,是先用数据进行模型训练再进行打分的方法。如前面学到的线性回归和Logistic分析,都是通过训练数据集得到分类模型,再利用训练后的模型对新的测试数据进行打分。懒惰学习方法:lazy learner,是先不进行数据建模,直接输入测试数据进行的方法。如KNN分类器。今天,小编就和大家一起来学习认识KNN分类器算法。1. KNN原理回顾K-means聚类算法,通过距离来判断样本距离哪个类别中心点更近,从而判断样本数据哪个类。与聚类算法不同的是,分类原创 2021-01-29 11:36:42 · 4063 阅读 · 1 评论 -
SPSS Modeler 使用平行图进行比较分析(第十六章)
上次,小编和大家一起学习了聚类分析的实现,当我们要进行每个聚类群对比时,除了可以利用模型块节点重点额平均值比较,用户还可以使用平行图进行更详细的对比。平行图是通过为各个字段维度创建平行轴,并一条线来连接数据中各个记录的字段值,从而能够用于比较各记录在不同维度差异的可视化展现方式。采用同聚类分析案例进行实践,前面聚类分析将汽车划分为4个类群,为了比较4个类群157款不同汽车的属性,可以利用“图形板”节点绘制平行图。案例:Demo数据文件“car_sales_knn_mod.sav”。数据展示:157款原创 2020-12-29 12:39:29 · 1115 阅读 · 0 评论 -
SPSS Modeler 聚类分析(第十六章)
今天,小编和大家一起学习聚类算法,是在没有任何先验知识的情况下,基于样本的数据特征,把相似或相近的样本划为一群,把差异较大或相远的样本划分到另一群,形成不同的类别。1. 聚类方法1.1 距离利用距离来判断样本间的相似程度。常用的有:明氏距离、曼哈顿距离、欧式距离、切比雪夫距离。1.2 K-means算法基于原型的聚类算法。在初始阶段,随机指定k个质心,之后通过距离度量的方式,把每个样本分配到距离他最近的质心中,从而形成初始的聚类类群。接着,根据上一次的聚类结果重新计算新的质心并对样本进行重新原创 2020-12-28 19:14:01 · 10960 阅读 · 2 评论 -
SPSS Modeler 集成学习之异质集成(第十五章)
前面,小编和大家一起学习了同质集成学习算法,下面,咱们一起学习异质集成算法的实践过程。异质集成与同质集成思路类似。在SPSS Modeler中,当使用了不同算法构建了多个分类器后,可以使用“整体”节点完成对异质分类器的集成工作。案例:Demo数据文件“bankloan.sav”。本次分别使用KNN算法、C5.0算法以及C&RT算法进行建模,最后通过“整体”节点进行集成输出。数据展示:数据流:要得到集成结果,需要将各模型结果(金色块)依次链接后(串联),连接“整体”节点。...原创 2020-12-22 12:24:55 · 2388 阅读 · 1 评论 -
SPSS Modeler 集成学习算法实践(第十五章)
今天,小编和大家一起学习应用SPSS Modeler软件进行集成学习算法。在SPSS Modeler中,Bagging和Boosting不是作为一个单独节点提供功能,而是集成在具体的算法节点中,作为功能选项被调用。随机森林是作为一个单独节点”随机树“提供功能,基分类器被固定为C&RT。案例:Demo数据文件“bankloan.sav”。为了比较3个集成算法的效果,将针对该数据进行多次建模。数据展示:数据流:在”分区“节点后,依次添加3个”C&R树“节点以及一个”随机树“节点,原创 2020-12-21 18:18:25 · 2887 阅读 · 4 评论 -
SPSS Modeler 集成学习算法之同质集成(第十五章)
前面小编和大家一起学习了若干分类器,一般情况下,我们在训练集上构建单个分类器解决问题。而对于集成学习算法,可以组合若干个基分类器,从而提升分类器的预测性能。比如通俗说,就是三个臭皮匠赛过诸葛亮。如果基分类器的数量趋于无穷多,那么集成分类器的错误率是否会等于0呢?不会,因为集成分类器错误率趋于0需要达到以下条件:(1)基分类器的错误率要低于0.5%;(2)基分类器之间相互独立。一般的,我们是基于同一数据集进行分类器的训练,很难满足分类器间相互独立的条件。在实际中,只能尽量保证分类器之间不存在强相关的原创 2020-12-18 17:43:21 · 1512 阅读 · 0 评论 -
SPSS Modeler 生成“报告”(第十四章)
在经过建模分析后,最终的结果如果要以报告的形式输出,那么可以通过报告节点构建报告内容,然后进行输出查看。报告节点案例:Demo数据文件“DRUG1n”。数据流:1. 表达式构建器使用编辑器中自带的函数表达式,生成要在报告中显示的数据内容。运行后,会自动显示字段[Age]字段的最后一条记录值,如下:2. 全部重复在报告中显示字段的所有记录内容,可以选择“全部重复”。在中间插入字段表达式,就会显示该字段所有记录。运行后显示报告如下:3. 重复位置如果需要显示的不是所有记录原创 2020-09-04 18:25:32 · 1401 阅读 · 0 评论 -
SPSS Modeler 神经网络实践案例(第十四章)
今天,小编和大家一起学习应用SPSS Modeler软件进行神经网络分析。首先,来看一下神经网络的结构。神经网络是一种试图模拟生物神经网络的结构和功能的数学模型或计算模型。神经网络一共包括三个层级:输入层、隐藏层和输出层。输入层:负责接收输入信息,数量对应多个输入属性特征,即有多少个输入变量则有多少个输入节点;其中最后一个节点是偏置,可以理解为一个常数项输入。输出层:负责输出最终预测结果。对于输出变量是连续型或是二分类问题,输出层只需要一个节点即可完成任务。而在多分类任务中,输出变量含有q个分类,原创 2020-05-22 19:43:01 · 12067 阅读 · 3 评论 -
SPSS Modeler 决策树CART算法实践案例(第十三章)
前面,小编和大家一起学习了关于决策树C5.0算法进行决策树分析,今天,继续学习使用CART算法进行决策树分析。首先,我们了解一下CART算法与C5.0算法的区别:C5.0算法只能处理分类型目标变量,CART算法既能处理分类型,也能处理连续型目标变量生成分类树;1. CART算法实现决策树分析CART决策树节点案例:Demo数据文件“bankloan.sav”。数据流:...原创 2020-05-19 19:23:48 · 7611 阅读 · 5 评论 -
SPSS Modeler 决策树C5.0算法实践案例(指南 第十三章)
前面,小编和大家一起学习了关于决策树分析的理论知识,下面,结合实际案例,我们学习一下利用SPSS Modeler软件实现决策树分析。1. 决策树实践案例3.1 C5.0 算法决策树节点案例:Demo数据文件“bankloan.sav”。数据流:类型节点中进行角色设定:目标变量:客户违约情况数据展示:...原创 2020-05-18 19:44:43 · 11522 阅读 · 11 评论 -
SPSS Modeler 进行RFM分析(指南 第十二章)
RFM分析在零售业应用最广泛,是对客户的购买行为做特征分析, 其中:R:recency,表示客户购买的时间距离当前时间(或某一时间点)有多久;F:frequency,表示客户在该时间内购买的次数;M:monetary,表示客户在该时间内购买的金额。RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该模型通过一个客户近期购买行为、购买的总体频率以及花了多少钱三项指标来描述该客户的价值状...原创 2020-04-27 13:19:03 · 3405 阅读 · 1 评论 -
SPSS Modeler 建模前准备—数据变换与实战(指南 第十一章)
我们在进行统计分析前,需要对数据进行描述,观察数据是否服从正态分布,若数据不满足正态,可以对数据做一些变换,使其服从正态分布后再行分析,SPSS Modeler中,使用变换节点来实现数据变换。变换节点:案例:数据文件下的”C11_变换.xlsx“数据文件数据流:数据展示:数据分布:销售金额分布情况如下使用变换节点对该数据进行变换。1. 设置2. 变换结果通过‘逆模型...原创 2020-04-24 18:24:21 · 3050 阅读 · 0 评论 -
SPSS Modeler 建模前准备—数据平衡与特征选择(指南 第十一章)
1. 数据平衡在数据挖掘过程中,经常会遇到数据不平衡的问题,由于模型总是力求分类尽可能精确,因此面对不平衡数据时分类器总是倾向于大类别的样本。平衡节点在平衡节点中,提供了两种处理方式:(1)欠采样:对于总体数据中的多数类别,通过对其进行随机抽样,减少多数类别的样本数量,以此来降低数据集的不平衡程度。(2)过采样:对于总体数据中的少数类别,通过对其进行样本复制,增加额外的样本量,以此来降...原创 2020-04-24 17:24:45 · 7619 阅读 · 2 评论 -
SPSS Modeler 建模前准备—样本管理与分区(指南 第十一章)
在数据挖掘的过程中,数据量往往都比较庞大,因此在数据探索阶段如果能对数据进行适当的抽样将能大大提高建模的效率,同时,用户在建模过程中经常需要对数据样本进行分区,以便后续进行建模评估。1. 样本管理样本节点实现数据抽样1.1 样本节点选项卡1.11 简单抽样1.12 复杂抽样例1:数据中有青年、中年、老年不同年龄级别的客户,其中老年人是较少的,为了避免随机抽取时老年人抽取不到或很...原创 2020-04-23 18:49:21 · 3039 阅读 · 0 评论 -
SPSS Modeler 进行Logistic回归分析(指南 第十章)
在前一节中,小编和大家一起学习了线性回归模型的建立,在实际应用中,当因变量是分类变量时,不符合传统线性回归的要求,无法对预测值直接进行建模,因此,考虑可以改用事件的发生概率作为目标变量。以二分类变量为例,事件发生的期望值E(y)等价于事件发生概率。我们把事件发生与否与值域在[0,1]区间的事件发生概率相联系。1. 理论基础1.1 在使用概率作为目标进行预测时,需要注意两点:(1) 一般线性...原创 2020-04-22 18:59:29 · 5723 阅读 · 0 评论 -
SPSS Modeler 逐步回归分析(指南 第九章)
在回归分析中,并不是所有自变量都是有效的,或者说都能对因变量有显著的影响,因此,今天,小编和大家一起学习如何在回归分析的过程中对变量进行筛选。为了更高效地找出最优模型,可以采用逐步回归法。主要分为前进法、后退法以及逐步回归法。前进法:逐步增加变量的过程。后退法:逐步减少变量的过程。逐步回归法:前进法在引入变量后无法再剔除,后退法在剔除变量后无法再被引入。逐步回归对前进法进行了改进,每当回...原创 2020-04-16 12:26:02 · 5975 阅读 · 1 评论 -
SPSS Modeler 之缺失值定义(指南 第七章)
前面,通过数据审核得到数据的分布情况和数据质量,今天,小编和大家一起进一步查看数据中缺失值的情况。案例:数据文件Customers(缺失).xlsx。数据流:数据展示:数据审核结果:审核报告中显示,“Car_Owner”有7个缺失值,但是“Age”没有报告缺失值。为了在分析前完成对缺失值的定义,我们可以通过类型节点,对缺失值进行定义和检查。1. 类型节点1.1 缺失选项定...原创 2020-04-03 17:29:44 · 5665 阅读 · 1 评论 -
SPSS Modeler 图形可视化之图形板节点常用图形(指南 第六章)
前面,小编和大家一起学习了SPSS Modeler中“图形板”节点,今天咱们一起看看图形板中常用的图形,包括气泡图、散点图矩阵、箱式图、聚类箱图、热图。1. 气泡图目的:分析连续型变量的关联性,可看作是散点图的一种变体。实现:在SPSS Modeler中,主要通过“图形板”节点完成绘制。案例:数据文件1995-2014GDP.xlsx。分析国内生产总值、居民消费水平以及进出口总额三个变量...原创 2020-03-26 12:49:37 · 3858 阅读 · 1 评论 -
SPSS Modeler 图形可视化之图形板节点(指南 第六章)
在SPSS Modeler中,考虑到可视化图形种类非常多,为每一种图形单独创建一个节点使用上不方便,故将所有常用的可视化图表全部汇集到“图形板”节点中。图形板节点数据流展示1. “基本”选项卡用于选择绘图变量及绘图类型。2. “详细”选项卡...原创 2020-03-26 11:14:48 · 1500 阅读 · 0 评论 -
SPSS Modeler 多元线性回归分析(指南 第九章)
今天,小编和大家一起使用SPSS Modeler 进行多元线性回归分析。分析步骤:① 分析变量关系,构建回归模型。② 估计模型系数,求解回归模型。③ 检查整体模型,确认是否显著。④ 检验模型系数,看看系数相关。⑤ 拟合优度检验,模型解释能力。⑥ 借助回归模型,进行分析预测。案例:数据文件“Diabetes.xlsx”。数据展示:数据流:1. 绘制散点图采用图形板节点回执...原创 2020-04-15 16:14:26 · 4697 阅读 · 0 评论 -
SPSS Modeler 一元线性回归分析(指南 第九章)
前面,小编和大家一起学习了图形可视化、描述性统计、假设检验等基本统计方法,接下来,我们将构建模型进一步研究数据间的关系,根据目标变量的类别,划分为回归与分类。目标变量为连续型变量的模型称为回归模型;目标变量为分类型变量的模型称为分类模型。今天,先从SPSS Modeler 进行一元线性回归分析开始学习。案例:数据文件“房产价格分析V1.xlsx”。数据展示:类型节点中定义变量角色:...原创 2020-04-14 19:17:27 · 1310 阅读 · 0 评论 -
SPSS Modeler 进行均值比较(指南 第八章)
案例:Demo文件下的telco.sav数据文件。数据展示:平均值节点1. 两组独立样本均值比较目的:分析流失组与非流失组客户的上月长途业务使用均值是否存在差异。1.1 数据流1.2 设置1.3 运行结果2. 多组独立样本均值比较目的:分析不同套餐的客户的上月长途业务使用均值是否存在差异。2.1 设置2.2 运行结果3. 配对样本均值比较目的:分析每名客户...原创 2020-04-14 15:45:57 · 1422 阅读 · 0 评论 -
SPSS Modeler 作相关分析(指南 第八章)
根据字段(变量)的类别,探讨字段之间的相关关系有:① 两个连续字段间的关系;② 两个分类字段间的关系;③ 连续字段与分类字段间的关系。1. 两个连续型变量的关系分析案例:数据文件1995-5014GDP.xlsx。数据展示:分析: 国内生产总值与居民消费水平间关系1.1 绘制散点图观察趋势特征1.2 计算及检验相关系数线性相关系数r的取值范围为[-1.1]。当r>0时,表...原创 2020-04-13 18:51:53 · 4992 阅读 · 1 评论 -
SPSS Modeler 的数据审核节点(指南 第七章)
在数据审核节点中,通过设置交叠字段可以更加直观地进行结果的比较。要设置交叠字段,可以在类型节点中把需要设置的字段角色设置为目标(只有一个字段被设置为目标),或者在数据审核节点中的设置选项卡中指定。交叠字段首先用于数据审核报告中的图形设置。数据审核节点将根据分析字段的类型及交叠字段的类型生成不同的图形。特别地,如果分析字段和交叠字段均为连续型变量,将会额外生成两个变量的相关系数及对应的相关...原创 2020-04-13 12:39:57 · 3775 阅读 · 0 评论 -
SPSS Modeler 缺失值的自动化处理(指南 第七章)
前面,小编和大家一起使用数据审核报告找出缺失值,接下来需要对缺失值进行处理。根据上一节的案例,其中有两类缺失值,一类是名义变量“Car_Owner”的空字符串,一类是连续型变量“Age”的空白值。案例:数据文件Customers(缺失).xlsx。1. 空字符串的处理...原创 2020-04-11 18:05:51 · 9415 阅读 · 0 评论 -
SPSS Modeler 统计指标计算(指南 第七章)
大家都知道,统计分析过程的第一步就是进行统计描述,统计描述的方法包括统计图、统计表与统计指标。在实际应用中,只有统计图表的直观展示是不够的,需要具体的统计描述指标进行详细清晰的描述数据的分布情况,如集中趋势指标、离散趋势指标与分布形态指标等。今天,小编就带大家一起看看,在spss modeler中如何实现描述性统计指标的计算。前面,我们通过借助spss modeler中“图形”选项卡下的各类节点...原创 2020-04-02 19:18:59 · 2353 阅读 · 0 评论 -
SPSS Modeler 图形的编辑模式(指南 第六章)
在SPSS Modeler 生成图形后,可以进一步通过编辑模式对图形进行修改。编辑模式:选中不同元素进行修改:编辑修改展示:原创 2020-03-26 16:46:26 · 953 阅读 · 0 评论 -
SPSS Modeler 图形可视化之网络图(指南 第六章)
在SPSS Modeler中,“图形”选项板提供了日常分析所需要的大量图形,从基本的散点图、直方图到热图、气泡图甚至地图可视化。前面我们学习了散点图、线图、条图、直方图的绘制过程,今天,小编带大家一起进入网络图的世界。网络图:研究分类变量间的关系。在SPSS Modeler中,主要通过“网络”节点完成条形图的绘制。案例:Demo文件下的“BASKETS1n.sav”的数据文件。数据流...原创 2019-12-12 18:49:52 · 9824 阅读 · 6 评论 -
SPSS Modeler 图形可视化之直方图(指南 第六章)
在SPSS Modeler中,“图形”选项板提供了日常分析所需要的大量图形,从基本的散点图、直方图到热图、气泡图甚至地图可视化。前面我们学习了散点图、线图和条图的绘制过程,今天,小编带大家一起进入直方图的世界。直方图:用于研究连续型变量的分布情况。在SPSS Modeler中,主要通过“直方图”节点完成条形图的绘制。案例:Demo文件下的“telco.sav”的数据文件。数据流数据展...原创 2019-12-12 16:59:08 · 3462 阅读 · 0 评论 -
SPSS Modeler 图形可视化之条形图(指南 第六章)
在SPSS Modeler中,“图形”选项板提供了日常分析所需要的大量图形,从基本的散点图、直方图到热图、气泡图甚至地图可视化。前面我们学习了散点图和线图的绘制过程,今天,小编带大家一起进入条形图的世界。条形图:一般用于分类变量的分布情况分析。在SPSS Modeler中,主要通过“分布”节点完成条形图的绘制。案例:Demo文件下的“telco.sav”的数据文件。数据流数据展示:...原创 2019-12-12 16:24:12 · 1703 阅读 · 0 评论 -
SPSS Modeler 图形可视化之散点图二(指南 第六章)
前面,大家一起学习了绘制简单散点图的过程,在实际应用中,会用到多重散点图和时间序列散点图的绘制,在spss modeler中提供了此功能。1. 多重散点图在一张图中实现多个变量趋势的比较。案例:“1995-2014GDP.xlsx”的数据文件。数据流数据展示:1.1 设置1.2 结果2. 时间散点图专门用于绘制时间序列的绘图节点。案例:Demo文件中的“catalo...原创 2019-10-29 18:58:29 · 2206 阅读 · 0 评论 -
SPSS Modeler 图形可视化之线图(指南 第六章)
在SPSS Modeler中,“散点图”节点包含了线图的绘制。只需要在散点图节点的“选项”选项卡中设定样式为“线”即可。下面,大家来围观具体绘制线图时有哪些功能和修饰。案例:Demo文件下的“catalog_seasfac.sav”的数据文件。数据流数据展示:1. 选项卡2. 排序模式设定:运行结果:3. 如所读取设定:运行结果:4. 交叠字段案例:De...原创 2019-10-29 17:39:26 · 2625 阅读 · 0 评论 -
SPSS Modeler 图形可视化之散点图一(指南 第六章)
数据可视化,现在已经是人人知晓并且喜闻乐见的一项技能,借助图形可以生动直观地展示数据结果和分析情况。在SPSS Modeler中,“图形”选项板提供了日常分析所需要的大量图形,从基本的散点图、直方图到热图、气泡图甚至地图可视化。今天,一起学习散点图的绘制方法。案例:Demos文件下“1995-2014GDP.xlsx”的数据文件。...原创 2019-10-29 16:17:22 · 5291 阅读 · 0 评论 -
SPSS Modeler 数据整理之字段处理2(指南 第五章)
5. 设为标志功能:(1)设置哑变量。(2)关联分析:将记录型数据转换为标记型数据。案例:书中案例C5_Mark_Data.csv将购买的商品转换为标志型,用网络图直观查看商品之间的关联。5.1 数据流数据内容:5.2 设置5.3 结果6. 重建功能:将字符型字段中的值从行换到列,并在对应的列上显示对应的值。案例:书中案例C5_Mark_Data.csv6....原创 2019-10-15 17:44:37 · 4679 阅读 · 1 评论 -
SPSS Modeler 数据挖掘概述(USER GUIDE 第四章)
建模技术数据操作和发现数据评估数据挖掘策略CRISP-DM过程模型建模方法分类模型分类节点:原创 2019-07-22 18:36:09 · 489 阅读 · 0 评论 -
SPSS Modeler 构建流(USER GUIDE 第五章)
流构建概述构建数据流一、使用节点1.将节点添加到流2.连接流中的节点3.绕过流中的节点4.禁用流中的节点5.在现有连接中添加节点6.删除节点之间的连接7.设置节点选项8.节点的高速缓存选项...原创 2019-08-05 19:24:15 · 924 阅读 · 0 评论 -
SPSS Modeler 数据定义(指南 第二章)
关于SPSS Modeler 中的数据规则:排列规则:一行一记录(对象),一列一指标(变量)。变量的属性:存储类型、测量级别和角色。1. 存储类型存储类型表示变量在计算机中的存储方式。例如,值为 1 和 0 的字段存储整型数据。这点与测量级别明显不同,测量级别描述的是数据的使用方法,而且不影响存储。例如,您可能希望将值为 1 和 0 的某个整数字段的测量级别设置为标志。这通常表明 1 ...原创 2019-07-29 19:44:56 · 5573 阅读 · 3 评论 -
SPSS Modeler 数据整理之变量设定 (指南 第三章)
Modeler 在读取数据阶段,变量可以分为3种状态:(1)非实例化:变量的存储类型、取值范围均未知。(2)半实例化:变量的存储类型已知,取值范围未知。(3)实例化:变量的存储类型、取值范围均已知。1. 字段的“类型”功能...原创 2019-08-02 18:13:13 · 5216 阅读 · 2 评论