下拉框数据叠加_《谁说菜鸟不懂数据分析SPSS篇》读书笔记3

目录

  1. 相关分析
  2. 回归分析
  3. 自动线性建模
  4. Logistic回归
  5. 时间序列回归

一.相关分析

相关关系指现象之间存在的非严格的、不确定的依存关系。这种依存关系的特点是:某一现象在数量上发生变化会影响另一现象数量上的变化,且这种变化在数量上具有一定的随机性。即当给定某一现象一个数值,另一现象会有若干个数值与之对应,并且总是遵循一定的规律围绕这些数值的平均数上下波动,其原因是影响现象发生变化的因素不止一个。

相关关系可分为线性相关和非线性相关。线性相关指当一个连续变量发生变动时,另一个连续变量相应地呈线性关系变动,用皮尔逊(Pearson)相关系数r度量。r取值范围限于【-1,1】r>0表线性正相关,r<0表线性负相关,r=0表示两变量间不存在相关关系。

进行相关分析前先绘制散点图观察变量间的相关性。散点图绘制SPSS操作方法:单击【图形】菜单,选择【旧对话框】——【散点图/点图】,打开对话框选择【简单散点图】,将要观察的两变量分别移至X轴和Y轴,单击【确定】。相关分析SPSS操作方法:单击【分析】菜单,选择【相关】——【双变量】,将变量移至右侧【变量】框中,【相关系数】框勾选【皮尔逊】,其他保持默认设置。

二.回归分析

(1)回归函数关系和回归分析

回归函数关系是现象间存在依存关系,对于某一变量的每一个数值都有另一变量值与之对应。这种依存关系可用数字表达式反映出来。

回归分析是通过建立因变量Y和影响它的自变量Xi(i=1,2,3......)间的回归模型,衡量自变量Xi对因变量的影响能力,进而用来预测因变量的发展趋势。回归分析模型包括线性回归和非线性回归两种。线性回归又分为简单线性回归,多重线性回归。非线性回归需要通过对数转化等方式,将其转化为线性回归的形式进行研究。

相关分析和回归分析的联系:两者均为研究及测度两个及两个以上变量之间关系的方法。实际工作中一般先进行相关分析,计算相关系数,然后建立回归模型,最后用回归模型进行推算或预测。

相关分析和回归分析的区别:相关分析研究的都是随机变量不区分自变量和因变量,回归分析要定义出自变量和因变量,自变量是普通的变量,因变量是随机变量。相关分析主要描述两个变量之间的相关关系的密切程度;回归不仅可以揭示变量X对变量Y的影响程度,还可以根据回归模型预测。

回归分析5个步骤:根据预测目标确定自变量和因变量,绘制散点图确定回归模型类型,估计模型参数建立线性回归模型,对回归模型进行检验,对回归模型进行预测。看两个变量之间的相关关系绘制【简单散点图】,看三个变量是否两两相关绘制【矩阵散点图】。回归系数用最小二乘法估算,即使观测点和估计点的距离的平方和达到最小。

(2)简单线性回归和多重线性回归

简单线性回归即一元线性回归,回归模型中只含一个自变量:

(a是常数项,是回归直线在纵坐标轴上的截距;b是回归系数,是回归直线的斜率;
是随机误差,即随机因素对因变量产生的影响)

建立简单线性回归模型SPSS操作方法:单击【分析】菜单,选择【回归】——【线性】,打开【线性回归】对话框,将变量分别移至【自变量】和【因变量】框中,自变量步进【方法】下拉框,采用默认的【输入】方法。单击右侧【统计】按钮打开对应对话框勾选【估算值】估计出回归系数,勾选【模型拟合】输出判定系数

,单击右侧【选项】打开对应对话框勾选【在方程中包含常量】输出拟合直线的截距,最后单击【确定】即可。若要利用回归模型进行预测,可在原数据集中输入对应自变量的数据,因变量的值留空不输,在【线性回归】对话框右侧【保存】按钮打开对应对话框勾选【预测值】框中的【未标准化】。

多重线性回归包含两个或两个以上的自变量,多元线性回归包含两个或两个以上的因变量。

(a是常数项,是回归直线在纵坐标轴上的截距;
是第n个偏回归系数;
是随机误差,即随机因素对因变量产生的影响)

建立多重线性回归模型SPSS操作方法:单击【分析】菜单,选择【回归】——【线性】,打开【线性回归】对话框,将变量分别移至【自变量】和【因变量】框中,自变量步进【方法】下拉框,采用默认的【输入】方法(注:若自变量有很多且无法判断是否适合参与建模则采用【步进方法】)。单击右侧【统计】按钮打开对应对话框勾选【估算值】估计出回归系数,勾选【模型拟合】输出调整后

平方,单击右侧【选项】打开对应对话框勾选【在方程中包含常量】输出拟合直线的截距,最后单击【确定】即可。若要利用回归模型进行预测,可在原数据集中输入对应自变量的数据,因变量的值留空不输,在【线性回归】对话框右侧【保存】按钮打开对应对话框勾选【预测值】框中的【未标准化】。

三.自动线性建模

自动线性建模SPSS操作方法:单击【分析】菜单,选择【回归】——【自动线性建模】,打开相应的对话框,在【字段】选项卡下设置自变量和因变量:将因变量移至【目标】框中,,将不是自变量的变量移除【预测变量】框移至【字段】框;在【构建选项】选项卡下设置建立模型的相关参数:【目标】项目设置建模的主要目标(如:创建标准模型),【基本】项目设置是否进行自动准备数据,【模型选择】项目设置变量筛选方法(SPSS默认选择向前步进,筛选准则默认为‘信息条件(AICc)’);【模型选项】用来设置模型的保存(勾选【将预测值保存到数据集】将生成“PredictedVlaue”变量及一列预测值,勾选【导出模型】将模型文件压缩为ZIP文件导出)。将模型导出后可应用到新的数据集进行预测评分,但新的数据集的数据结构要与建模使用的数据集一致。预测操作方法:打开新数据集,单击【实用程序】菜单——【评分向导】导入模型,按弹出的对话框一步步操作即可。

四.Logistic回归

Logistic回归是针对因变量为分类变量的回归分析方法,属于概率型非线性回归。非线性问题要通过对数变换转换为线性问题。分类变量有二分类(有两个分类状态)和多分类(有多个类别的状态)。二分类Logistic回归的因变量只有两个分类值:0和1。

经过变换后的Logistic回归方程为:

logit(P)指对概率值P进行对数变换,变换后值范围为

c55812e9da08924760e3c9fb0acef07b.png

二分类Logistic回归SPSS操作方法:单击【分析】菜单,选择【回归】——【二元Logistic】,在弹出的对话框中将左侧的变量分别移入【因变量】和【协变量】框中,单击右侧的【保存】按钮在弹出的新对话框中勾选【预测值】下的【概率】,其他保持默认设置即可。若要用Logistic回归模型进行预测,可在单击【保存】按钮在弹出的新对话框中时设置导出模型,再打开需要进行预测的新数据集,单击【实用程序】菜单——【评分向导】导入模型,按弹出的对话框一步步操作即可。或在原数据集中输入相应的新增自变量值,对应的因变量留空,再勾选【预测值】下的【概率】,然后运行。

五.时间序列分析

通常情况下,一个时间序列可能会包含长期趋势T、季节变动S、循环变动C和不规则变动I四种因素,这四种因素有两种组合方式:1.四种因素相互独立,即时间序列由四种因素叠加而成,用加法模型表示:

; 2.四种因素相互影响,即时间序列是综合四种因素而成,用乘法模型表示:

季节分解法SPSS操作方法:1.先定义日期标示变量:单击【数据】菜单——【定义日期和时间】,打开对话框根据数据起始时间进行设置,生成新的变量。2.绘制序列图判断时间序列属于乘法模型还是加法模型:单击【分析】菜单,选择【时间序列预测】——【序列图】,将新生成的日期标示变量移到【时间轴标签】框中,要预测的变量移至【变量】框。如果随时间推移,序列季节波动变得越来越大则使用乘法模型,如果序列季节波动能基本维持恒定,则使用加法模型。3.季节因素分解:单击【分析】菜单,选择【时间序列预测】——【季节性分解】,将要预测的变量移至【变量】框中,【模型类型】依之前所做序列图判断选择乘法或加法,单击确定,数据文件中会新增四个变量。

目前主流的时间序列预测方法都是针对平稳的时间序列进行分析的,但实际上我们遇到的大多数时间序列都不平稳,所以在分析时需先识别序列的平稳性,把不平稳的序列转换为平稳序列。平稳的时间序列有以下特征:均数和方差不随时间变化,自相关系数只与时间间隔有关,与所处的时间无关。利用“差分”可将时间序列平稳化,差分就是指序列中前后相邻的两期数据之差。时间序列的预测步骤有四步:绘制时间序列图观察趋势,分析序列平稳性并进行平稳化,时间序列建模分析,模型评估与预测。

使用专家建模法进行时间序列分析建模SPSS操作方法:单击【分析】菜单,选择【时间序列预测】——【创建传统模型】,打开【时间序列建模器】对话框,在【变量】选项卡下将要预测分析的变量移至【因变量】框,在对话框中间的【方法】下拉列表中选择【专家建模器】项,单击右侧的【条件】按钮打开新的对话框,勾选【所有模型】和【专家建模器考虑季节性模型】,再返回【时间序列建模器】对话框,在【保存】选项卡勾选【预测值】,设置导出模型的保存路径和文件名称。

时间序列预测应用:单击【分析】菜单,选择【时间序列预测】——【应用传统模型】,在【模型】选项卡下单击【浏览】载入模型,在【预测期】框中选择【评估期结束后的第一个个案到指定日期之间的个案】,并在【日期】下方输入要预测的年月,再切换至【保存】选项卡勾选【预测值】,则SPSS会自动预测序列从原始数据末期到输入日期的所有数值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值