自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 收藏
  • 关注

原创 《人体地图》笔记

坂井建雄 著 孙浩 译。

2023-04-11 11:36:49 610

原创 统计学三型理论—概述

1. 三型理论是什么?表现型:

2021-06-20 01:51:53 727

原创 SPSS Modeler关联分析实践(第十八章)

上一节,小编和大家一起学习了关联分析的基本概念和关联规则的评价指标,今天,我们一起利用SPSS Modeler软件进行关联分析。使用“Apriori”节点完成。案例:Demo数据文件“BASKETS1n”。数据展示:某超市的会员客户的购物数据,其中包括每名会员的个人信息和购物篮项目。数据流:1. 使用类型节点进行变量角色设定数据样式:表格格式数据(1)把关于会员个人信息变量的角色设为–无。(2)把会员的购物篮项目角色设为–任意。2. Apriori节点设置2.1 字段选项卡事

2021-02-23 12:47:06 6616 6

原创 SPSS Modeler关联分析(第十八章)

通过关联分析,我们将从庞杂的数据中发现事物间潜藏的关联关系。常利用关联规则技术对超市购物篮进行分析,随着数据挖掘技术的不断成熟,关联分析也逐渐被应用于网站分析、气象分析、社交媒体分析等方面。1. 关联分析基本概念将上表的每一行记录称为一个事务。每个事务由事务标识(TID)以及对应的项目组成。如果项集X中包含可k个项目,就称X为k-项集。例如,TID为01的事务,就是一个2-项集,其中包含了啤酒和冻肉两个项目。为了进一步进行关联分析,我们要将数据转换为表格格式或事物格式。一个关联规则通常可以表

2021-02-23 11:58:03 10028

原创 SPSS Modeler KNN分类器(第十七章)

分类器算法:积极学习方法:eager learner,是先用数据进行模型训练再进行打分的方法。如前面学到的线性回归和Logistic分析,都是通过训练数据集得到分类模型,再利用训练后的模型对新的测试数据进行打分。懒惰学习方法:lazy learner,是先不进行数据建模,直接输入测试数据进行的方法。如KNN分类器。今天,小编就和大家一起来学习认识KNN分类器算法。1. KNN原理回顾K-means聚类算法,通过距离来判断样本距离哪个类别中心点更近,从而判断样本数据哪个类。与聚类算法不同的是,分类

2021-01-29 11:36:42 3965 1

原创 SPSS Modeler 使用平行图进行比较分析(第十六章)

上次,小编和大家一起学习了聚类分析的实现,当我们要进行每个聚类群对比时,除了可以利用模型块节点重点额平均值比较,用户还可以使用平行图进行更详细的对比。平行图是通过为各个字段维度创建平行轴,并一条线来连接数据中各个记录的字段值,从而能够用于比较各记录在不同维度差异的可视化展现方式。采用同聚类分析案例进行实践,前面聚类分析将汽车划分为4个类群,为了比较4个类群157款不同汽车的属性,可以利用“图形板”节点绘制平行图。案例:Demo数据文件“car_sales_knn_mod.sav”。数据展示:157款

2020-12-29 12:39:29 1073

原创 SPSS Modeler 聚类分析(第十六章)

今天,小编和大家一起学习聚类算法,是在没有任何先验知识的情况下,基于样本的数据特征,把相似或相近的样本划为一群,把差异较大或相远的样本划分到另一群,形成不同的类别。1. 聚类方法1.1 距离利用距离来判断样本间的相似程度。常用的有:明氏距离、曼哈顿距离、欧式距离、切比雪夫距离。1.2 K-means算法基于原型的聚类算法。在初始阶段,随机指定k个质心,之后通过距离度量的方式,把每个样本分配到距离他最近的质心中,从而形成初始的聚类类群。接着,根据上一次的聚类结果重新计算新的质心并对样本进行重新

2020-12-28 19:14:01 10821 2

原创 SPSS Modeler 集成学习之异质集成(第十五章)

前面,小编和大家一起学习了同质集成学习算法,下面,咱们一起学习异质集成算法的实践过程。异质集成与同质集成思路类似。在SPSS Modeler中,当使用了不同算法构建了多个分类器后,可以使用“整体”节点完成对异质分类器的集成工作。案例:Demo数据文件“bankloan.sav”。本次分别使用KNN算法、C5.0算法以及C&RT算法进行建模,最后通过“整体”节点进行集成输出。数据展示:数据流:要得到集成结果,需要将各模型结果(金色块)依次链接后(串联),连接“整体”节点。...

2020-12-22 12:24:55 2345 1

原创 SPSS Modeler 集成学习算法实践(第十五章)

今天,小编和大家一起学习应用SPSS Modeler软件进行集成学习算法。在SPSS Modeler中,Bagging和Boosting不是作为一个单独节点提供功能,而是集成在具体的算法节点中,作为功能选项被调用。随机森林是作为一个单独节点”随机树“提供功能,基分类器被固定为C&RT。案例:Demo数据文件“bankloan.sav”。为了比较3个集成算法的效果,将针对该数据进行多次建模。数据展示:数据流:在”分区“节点后,依次添加3个”C&R树“节点以及一个”随机树“节点,

2020-12-21 18:18:25 2814 4

原创 SPSS Modeler 集成学习算法之同质集成(第十五章)

前面小编和大家一起学习了若干分类器,一般情况下,我们在训练集上构建单个分类器解决问题。而对于集成学习算法,可以组合若干个基分类器,从而提升分类器的预测性能。比如通俗说,就是三个臭皮匠赛过诸葛亮。如果基分类器的数量趋于无穷多,那么集成分类器的错误率是否会等于0呢?不会,因为集成分类器错误率趋于0需要达到以下条件:(1)基分类器的错误率要低于0.5%;(2)基分类器之间相互独立。一般的,我们是基于同一数据集进行分类器的训练,很难满足分类器间相互独立的条件。在实际中,只能尽量保证分类器之间不存在强相关的

2020-12-18 17:43:21 1480

原创 SPSS Modeler 生成“报告”(第十四章)

在经过建模分析后,最终的结果如果要以报告的形式输出,那么可以通过报告节点构建报告内容,然后进行输出查看。报告节点案例:Demo数据文件“DRUG1n”。数据流:1. 表达式构建器使用编辑器中自带的函数表达式,生成要在报告中显示的数据内容。运行后,会自动显示字段[Age]字段的最后一条记录值,如下:2. 全部重复在报告中显示字段的所有记录内容,可以选择“全部重复”。在中间插入字段表达式,就会显示该字段所有记录。运行后显示报告如下:3. 重复位置如果需要显示的不是所有记录

2020-09-04 18:25:32 1361

原创 SPSS Modeler 神经网络实践案例(第十四章)

今天,小编和大家一起学习应用SPSS Modeler软件进行神经网络分析。首先,来看一下神经网络的结构。神经网络是一种试图模拟生物神经网络的结构和功能的数学模型或计算模型。神经网络一共包括三个层级:输入层、隐藏层和输出层。输入层:负责接收输入信息,数量对应多个输入属性特征,即有多少个输入变量则有多少个输入节点;其中最后一个节点是偏置,可以理解为一个常数项输入。输出层:负责输出最终预测结果。对于输出变量是连续型或是二分类问题,输出层只需要一个节点即可完成任务。而在多分类任务中,输出变量含有q个分类,

2020-05-22 19:43:01 11972 3

原创 SPSS Modeler 决策树CART算法实践案例(第十三章)

前面,小编和大家一起学习了关于决策树C5.0算法进行决策树分析,今天,继续学习使用CART算法进行决策树分析。首先,我们了解一下CART算法与C5.0算法的区别:C5.0算法只能处理分类型目标变量,CART算法既能处理分类型,也能处理连续型目标变量生成分类树;1. CART算法实现决策树分析CART决策树节点案例:Demo数据文件“bankloan.sav”。数据流:...

2020-05-19 19:23:48 7525 5

原创 SPSS Modeler 决策树C5.0算法实践案例(指南 第十三章)

前面,小编和大家一起学习了关于决策树分析的理论知识,下面,结合实际案例,我们学习一下利用SPSS Modeler软件实现决策树分析。1. 决策树实践案例3.1 C5.0 算法决策树节点案例:Demo数据文件“bankloan.sav”。数据流:类型节点中进行角色设定:目标变量:客户违约情况数据展示:...

2020-05-18 19:44:43 11332 11

原创 SPSS Modeler 进行RFM分析(指南 第十二章)

RFM分析在零售业应用最广泛,是对客户的购买行为做特征分析, 其中:R:recency,表示客户购买的时间距离当前时间(或某一时间点)有多久;F:frequency,表示客户在该时间内购买的次数;M:monetary,表示客户在该时间内购买的金额。RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该模型通过一个客户近期购买行为、购买的总体频率以及花了多少钱三项指标来描述该客户的价值状...

2020-04-27 13:19:03 3320 1

原创 SPSS Modeler 建模前准备—数据变换与实战(指南 第十一章)

我们在进行统计分析前,需要对数据进行描述,观察数据是否服从正态分布,若数据不满足正态,可以对数据做一些变换,使其服从正态分布后再行分析,SPSS Modeler中,使用变换节点来实现数据变换。变换节点:案例:数据文件下的”C11_变换.xlsx“数据文件数据流:数据展示:数据分布:销售金额分布情况如下使用变换节点对该数据进行变换。1. 设置2. 变换结果通过‘逆模型...

2020-04-24 18:24:21 2987

原创 SPSS Modeler 建模前准备—数据平衡与特征选择(指南 第十一章)

1. 数据平衡在数据挖掘过程中,经常会遇到数据不平衡的问题,由于模型总是力求分类尽可能精确,因此面对不平衡数据时分类器总是倾向于大类别的样本。平衡节点在平衡节点中,提供了两种处理方式:(1)欠采样:对于总体数据中的多数类别,通过对其进行随机抽样,减少多数类别的样本数量,以此来降低数据集的不平衡程度。(2)过采样:对于总体数据中的少数类别,通过对其进行样本复制,增加额外的样本量,以此来降...

2020-04-24 17:24:45 7469 2

原创 SPSS Modeler 建模前准备—样本管理与分区(指南 第十一章)

在数据挖掘的过程中,数据量往往都比较庞大,因此在数据探索阶段如果能对数据进行适当的抽样将能大大提高建模的效率,同时,用户在建模过程中经常需要对数据样本进行分区,以便后续进行建模评估。1. 样本管理样本节点实现数据抽样1.1 样本节点选项卡1.11 简单抽样1.12 复杂抽样例1:数据中有青年、中年、老年不同年龄级别的客户,其中老年人是较少的,为了避免随机抽取时老年人抽取不到或很...

2020-04-23 18:49:21 2981

原创 SPSS Modeler 进行Logistic回归分析(指南 第十章)

在前一节中,小编和大家一起学习了线性回归模型的建立,在实际应用中,当因变量是分类变量时,不符合传统线性回归的要求,无法对预测值直接进行建模,因此,考虑可以改用事件的发生概率作为目标变量。以二分类变量为例,事件发生的期望值E(y)等价于事件发生概率。我们把事件发生与否与值域在[0,1]区间的事件发生概率相联系。1. 理论基础1.1 在使用概率作为目标进行预测时,需要注意两点:(1) 一般线性...

2020-04-22 18:59:29 5638

原创 SPSS Modeler 逐步回归分析(指南 第九章)

在回归分析中,并不是所有自变量都是有效的,或者说都能对因变量有显著的影响,因此,今天,小编和大家一起学习如何在回归分析的过程中对变量进行筛选。为了更高效地找出最优模型,可以采用逐步回归法。主要分为前进法、后退法以及逐步回归法。前进法:逐步增加变量的过程。后退法:逐步减少变量的过程。逐步回归法:前进法在引入变量后无法再剔除,后退法在剔除变量后无法再被引入。逐步回归对前进法进行了改进,每当回...

2020-04-16 12:26:02 5812 1

原创 SPSS Modeler 多元线性回归分析(指南 第九章)

今天,小编和大家一起使用SPSS Modeler 进行多元线性回归分析。分析步骤:① 分析变量关系,构建回归模型。② 估计模型系数,求解回归模型。③ 检查整体模型,确认是否显著。④ 检验模型系数,看看系数相关。⑤ 拟合优度检验,模型解释能力。⑥ 借助回归模型,进行分析预测。案例:数据文件“Diabetes.xlsx”。数据展示:数据流:1. 绘制散点图采用图形板节点回执...

2020-04-15 16:14:26 4606

原创 SPSS Modeler 一元线性回归分析(指南 第九章)

前面,小编和大家一起学习了图形可视化、描述性统计、假设检验等基本统计方法,接下来,我们将构建模型进一步研究数据间的关系,根据目标变量的类别,划分为回归与分类。目标变量为连续型变量的模型称为回归模型;目标变量为分类型变量的模型称为分类模型。今天,先从SPSS Modeler 进行一元线性回归分析开始学习。案例:数据文件“房产价格分析V1.xlsx”。数据展示:类型节点中定义变量角色:...

2020-04-14 19:17:27 1264

原创 SPSS Modeler 进行均值比较(指南 第八章)

案例:Demo文件下的telco.sav数据文件。数据展示:平均值节点1. 两组独立样本均值比较目的:分析流失组与非流失组客户的上月长途业务使用均值是否存在差异。1.1 数据流1.2 设置1.3 运行结果2. 多组独立样本均值比较目的:分析不同套餐的客户的上月长途业务使用均值是否存在差异。2.1 设置2.2 运行结果3. 配对样本均值比较目的:分析每名客户...

2020-04-14 15:45:57 1382

原创 SPSS Modeler 作相关分析(指南 第八章)

根据字段(变量)的类别,探讨字段之间的相关关系有:① 两个连续字段间的关系;② 两个分类字段间的关系;③ 连续字段与分类字段间的关系。1. 两个连续型变量的关系分析案例:数据文件1995-5014GDP.xlsx。数据展示:分析: 国内生产总值与居民消费水平间关系1.1 绘制散点图观察趋势特征1.2 计算及检验相关系数线性相关系数r的取值范围为[-1.1]。当r>0时,表...

2020-04-13 18:51:53 4891 1

原创 SPSS Modeler 的数据审核节点(指南 第七章)

在数据审核节点中,通过设置交叠字段可以更加直观地进行结果的比较。要设置交叠字段,可以在类型节点中把需要设置的字段角色设置为目标(只有一个字段被设置为目标),或者在数据审核节点中的设置选项卡中指定。交叠字段首先用于数据审核报告中的图形设置。数据审核节点将根据分析字段的类型及交叠字段的类型生成不同的图形。特别地,如果分析字段和交叠字段均为连续型变量,将会额外生成两个变量的相关系数及对应的相关...

2020-04-13 12:39:57 3710

原创 SPSS Modeler 缺失值的自动化处理(指南 第七章)

前面,小编和大家一起使用数据审核报告找出缺失值,接下来需要对缺失值进行处理。根据上一节的案例,其中有两类缺失值,一类是名义变量“Car_Owner”的空字符串,一类是连续型变量“Age”的空白值。案例:数据文件Customers(缺失).xlsx。1. 空字符串的处理...

2020-04-11 18:05:51 9030

原创 SPSS Modeler 之缺失值定义(指南 第七章)

前面,通过数据审核得到数据的分布情况和数据质量,今天,小编和大家一起进一步查看数据中缺失值的情况。案例:数据文件Customers(缺失).xlsx。数据流:数据展示:数据审核结果:审核报告中显示,“Car_Owner”有7个缺失值,但是“Age”没有报告缺失值。为了在分析前完成对缺失值的定义,我们可以通过类型节点,对缺失值进行定义和检查。1. 类型节点1.1 缺失选项定...

2020-04-03 17:29:44 5595 1

原创 SPSS Modeler 统计指标计算(指南 第七章)

大家都知道,统计分析过程的第一步就是进行统计描述,统计描述的方法包括统计图、统计表与统计指标。在实际应用中,只有统计图表的直观展示是不够的,需要具体的统计描述指标进行详细清晰的描述数据的分布情况,如集中趋势指标、离散趋势指标与分布形态指标等。今天,小编就带大家一起看看,在spss modeler中如何实现描述性统计指标的计算。前面,我们通过借助spss modeler中“图形”选项卡下的各类节点...

2020-04-02 19:18:59 2310

原创 SPSS Modeler 图形的编辑模式(指南 第六章)

在SPSS Modeler 生成图形后,可以进一步通过编辑模式对图形进行修改。编辑模式:选中不同元素进行修改:编辑修改展示:

2020-03-26 16:46:26 897

原创 SPSS Modeler 图形可视化之图形板节点常用图形(指南 第六章)

前面,小编和大家一起学习了SPSS Modeler中“图形板”节点,今天咱们一起看看图形板中常用的图形,包括气泡图、散点图矩阵、箱式图、聚类箱图、热图。1. 气泡图目的:分析连续型变量的关联性,可看作是散点图的一种变体。实现:在SPSS Modeler中,主要通过“图形板”节点完成绘制。案例:数据文件1995-2014GDP.xlsx。分析国内生产总值、居民消费水平以及进出口总额三个变量...

2020-03-26 12:49:37 3755 1

原创 SPSS Modeler 图形可视化之图形板节点(指南 第六章)

在SPSS Modeler中,考虑到可视化图形种类非常多,为每一种图形单独创建一个节点使用上不方便,故将所有常用的可视化图表全部汇集到“图形板”节点中。图形板节点数据流展示1. “基本”选项卡用于选择绘图变量及绘图类型。2. “详细”选项卡...

2020-03-26 11:14:48 1458

转载 线性回归干货资料集锦

线性回归是极经典的统计方法,有严格的假设条件,能探索影响因素,能输出模型,能用于预测,神通广大,应用广泛。学统计分析,如果能把线性回归琢磨透了,那恭喜你已经进入统计世界了。为此特地搜集了已经在微信平台公开发布的有关SPSS线性回归的各类教程、案例,经验,点击标题即可打开原文,供学习参考。案例类SPSS统计分析案例:一元线性回归SPSS操作:简单线性回归(史上最详尽的手把手教程)超详细SP...

2019-12-27 11:03:03 408

原创 中介效应、调节效应与交互作用咋回事?

1.中介效应中介效应模式:A对C的作用通过B发生,即A-B-C。其中A-C如果作用为零,则B为完全中介;若A-C作用不为零,则B为部分中介。形象比喻:中介效应为“媒婆”,A-C的认识是通过媒婆牵线搭桥。2.调解效应调节效应:A-C有作用,但B会影响A-C 的作用大小。形象比喻:调节效应为“小三”,会影响A-C正常的夫妻关系。3.交互作用上图为i型交互作用模式:A-C有关系,B-...

2019-12-26 17:11:34 32506

原创 关于线性回归那些事儿

1. 如何理解线性回归中的方差齐性?在两组和多组比较中,每组都有很多数据,可以求出每组的方差,然后比较就行了,很容易理解。但是在线性回归中,有的人就不理解方差齐性是什么意思了。因为线性回归中自变量x不是分类变量,x取值很多,通常情况下,每个x值只对应1个y值。比如,分析身高对血压值的影响,可能每个身高对应的血压值只有一个数值。很显然,对于1个数是没有办法计算方差的,那还何来“方差齐性”检验呢?...

2019-12-26 16:22:50 1546

原创 SPSS Modeler 图形可视化之网络图(指南 第六章)

在SPSS Modeler中,“图形”选项板提供了日常分析所需要的大量图形,从基本的散点图、直方图到热图、气泡图甚至地图可视化。前面我们学习了散点图、线图、条图、直方图的绘制过程,今天,小编带大家一起进入网络图的世界。网络图:研究分类变量间的关系。在SPSS Modeler中,主要通过“网络”节点完成条形图的绘制。案例:Demo文件下的“BASKETS1n.sav”的数据文件。数据流...

2019-12-12 18:49:52 9646 6

原创 SPSS Modeler 图形可视化之直方图(指南 第六章)

在SPSS Modeler中,“图形”选项板提供了日常分析所需要的大量图形,从基本的散点图、直方图到热图、气泡图甚至地图可视化。前面我们学习了散点图、线图和条图的绘制过程,今天,小编带大家一起进入直方图的世界。直方图:用于研究连续型变量的分布情况。在SPSS Modeler中,主要通过“直方图”节点完成条形图的绘制。案例:Demo文件下的“telco.sav”的数据文件。数据流数据展...

2019-12-12 16:59:08 3357

原创 SPSS Modeler 图形可视化之条形图(指南 第六章)

在SPSS Modeler中,“图形”选项板提供了日常分析所需要的大量图形,从基本的散点图、直方图到热图、气泡图甚至地图可视化。前面我们学习了散点图和线图的绘制过程,今天,小编带大家一起进入条形图的世界。条形图:一般用于分类变量的分布情况分析。在SPSS Modeler中,主要通过“分布”节点完成条形图的绘制。案例:Demo文件下的“telco.sav”的数据文件。数据流数据展示:...

2019-12-12 16:24:12 1655

转载 16种常用的数据分析方法汇总

一、描述统计描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。二、假设检验1、参数检验参数检验是在已知总体...

2019-11-18 12:36:39 724

原创 医学统计学笔记之分布

1. 正态分布正态分布可以记作x~N(μ,σ2),其中μ,σ分别为正态分布的位置参数和形态参数。1.1 主要特征正态曲线在横轴上方,均数处的纵坐标最高,并与x轴永不相交。正态分布以均数为中心,呈单峰、左右对称分布。在正态分布中,均数、中位数、众数相等。正态分布有两个参数(parameter),即均数是位置参数,标准差是形状参数。正态分布曲线下面积分布有一定规律:1.2 应用...

2019-11-15 19:03:46 2261

原创 医学统计学笔记之设计

书籍:《利用SPSS的医学统计分析》1. 调查研究设计1.1 分类调查范围分:普查、抽样调查、典型调查调查时间分:横断面研究,纵向研究(分为病例对照研究和队列研究)横断面研究:探索性分析,提示可能存在关联病例对照研究:由果推因队列研究:从因观果抽样方式分:概率抽样、非概率抽样概率抽样:单纯随机抽样、系统抽样、分层抽样、整群抽样等非概率抽样:偶遇抽样、判断抽样、定额抽样、雪...

2019-11-12 17:14:05 6292

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除