前言
笔者于2021年暑假在家准备数学建模竞赛,准备过程中由于缺少数据处理工具,且以往的项目与统计类论文中同样急需数据处理的知识与工具,笔者于这个暑假在家浅浅学习了数据分析的相关知识,熟悉了SPSS与SPSSAU,与大家分享。
一、SPSSAU是什么
SPSSAU是一个智能化在线统计分析平台,隶属于北京青丝科技有限公司旗下网站。SPSSAU即SPSS+automatic,网页使用简洁清晰的模块与选择按键,并配有便利的使用手册,对新手极为友好。
二、浅谈数据分析基础概念理解
官网给我们提供了很方便的《帮助手册》,作为数据分析的新手,通过《帮助手册》熟悉网站操作方式、清晰定类与定量两种变量的区别、了解数据分析常用方法的用途、清晰各种方法对应研究的数据的种类(定类-定类、定量-定量、定类-定量、定量-定类),学会利用要研究的方向结合分析方法确定问卷题目的类型与内容。
⭐⭐⭐⭐⭐⭐浅谈问卷问题、定量与定类两种变量与各个方法之间的选择⭐⭐⭐⭐⭐⭐
在我们研究的过程中,大概流程为设计问卷,收集数据,处理数据和结论成文几个步骤。
几个过程看似独立,但其中有着必然的关系,想要做好一项好的研究结果,一定要结合几者,了解他们之间的形成关系,通过正逆两方面做准备与分析。
1、问卷设计:问卷问题类型主要有:单选题、多选题、量表题、填空题。问卷问题通常以个人信息为开始,调查个人信息,此处多为单选题进行调查;接着通常有一些个人对某件事情或某一方面问题的看法与态度,通常利用单选题或多选题进行调查;然后进行的大多是对个人态度或喜恶的程度调查,这一类型题目叫做量表题,量表题通过数字区间值选择来衡量受访者的态度,选择范围从极端态度到相反的极端态度;最后可能带有一些填空题,但在设计问卷的过程中,我们要尽量避免填空题的出现,一是填写人的时间与精力占用太多导致问卷质量下降,二是在数据分析的过程中,我们难以将其量化,因此在设计过程中,我们要尽量把可能出现的选项考虑全面来,通过选择题或量表题来设计问卷,而这一过程就需要设计人积攒大量的经验并结合数据分析的知识来设计出合理的问卷,需要读者多多动手实践积累。
2、变量对应数据的分类:在数据分析的过程中,SPSSAU将数据分为了定类与定量两种数据。
术语 | 说明 | 举例 |
---|---|---|
定量数据 | 数字大小具有比较意义 | 您对天猫的满意度情况(非常不满意,比较不满意,中立,比较满意,非常满意) |
定类数据 | 数字大小代表分类 | 性别(男和女),专业(文科、理科、工科) |
通过以上的定义我们可以联想到问卷中不同的问题类型,定量数据指的是有意义的的数字,可以表示大小,正好对应着量表题中的“程度”,因此量表题所统计出的数据均为定量数据,其他问卷中的统计收入、支出、人数等数字信息同样可以归为定量数据;而定类数据顾名思义,我们可以联想到问卷中的单选题与多选题。
3、研究两种变量之间的关系,利用两个变量的数据类型来选定研究方法。
数据分析无非是研究某一变量的分布情况、数据的可信度(信度),可用还是不可用(效度)、两个变量之间的差异、两个变量之间的相关性、两个变量之间的相关公式、评价填写数据、降低变量维度研究问题等等……
但变量所对应的数据类型的差异导致了不同方法的选择,具体对应关系如下表,读者要多多熟悉方法对应的数据类型和方法的用途,在使用的时候才能得心应手,信手拈来。
分析方法 | 功能介绍 | 一句话说明 | 数据类型 |
---|---|---|---|
频数 | 百分比 | 男女比例分别多少 | 定类 |
交叉(卡方) | 差异关系 | 不同性别【 X 】人群是否抽烟【 Y 】的差异情况 | X(定类) Y(定类) |
描述 | 平均值 | 平均身高,量表数据平均得分等 | 定量 |
分类汇总 | 差异关系 | 不同城市的销售额情况 | X(定类)【 可选 】 Y(定量/定类) |
相关 | 相关关系 | 身高【 X 】和体重【 Y 】有没有关系 | X(定量)【 可选 】 Y(定量)【 可选 】 |
回归 | 影响关系 | 身高【 X 】影响体重【 Y 】吗? | Y(定量) X(定量/定类) |
聚类 | 人群分类 | 300个人分成几类? | 定量 |
因子 | 浓缩 权重 | 30句话概述成5个关键词(因子) 5个关键词(因子)分别代表30句话的信息比重? | 定量 |
主成分 | 浓缩 权重 | 30句话概述成5个关键词(成分) 5个关键词(主成分)分别代表30句话的信息比重? | 定量 |
信度 | 可靠性 | 数据真实吗? | 定量 |
效度 | 有效性 | 数据有效吗? | 定量 |
项目分析 | 区分度 | 设计的量表题目是否有区分度? | 定量(量表题) |
熵值法 | 权重 | 研究项的权重比例如何? | 定量 |
方差 | 差异关系 | 不同收入【 X 】群体的身高【 Y 】是否有差异? | X(定类) Y(定量) |
t 检验 | 差异关系 | 不同性别【 X 】群体的身高【 Y 】是否有差异?【 X 仅2个类别比如男和女】 | X(定类) Y(定量) |
多重响应(多选/单选-多选/多选-单选/多选-多选) | 百分比 | 多选题的选择比例情况如何 | X(定类)【 可选 】 多选题选项 |
事后多重比较 | 差异关系 | 不同收入【 X 】群体的身高【 Y 】详细差异情况?【 X 两两组别之间差异对比】 | X(定类) Y(定量) |
单样本t 检验 | 差异关系 | 身高是否明显等于1.8 | 定量 |
配对t 检验 | 差异关系 | 注射新药和没有注射的两组老鼠,血压一样吗? | 配对1(定量) 配对1(定量) |
逐步回归 | 影响关系 | 帮我自动找出影响身高 Y的因素 X | Y(定量) X(定量/定类) |
分层回归 | 影响关系 | 身高【 X,分层1】对于体重【 Y】的影响,再加入饮食习惯【 X,分层2】,看看饮食习惯对体重的影响有多严重 | Y(定量) 分层1(定量/定类) 分层2(定量/定类) 分层3(定量/定类) 分层4(定量/定类) |
正态性检验 | 正态检验 | 数据正态吗? | 定量 |
非参数检验 | 差异关系 | 身高数据不正态时,我想研究收入【 X 】与身高【 Y 】的差异关系 | Y(定量) X(定类) |
双因素方差 | 差异关系 | 性别【 X 】和地区【 X 】对于身高【 Y 】的差异 | Y(定量) X(定类,2个) |
二元Logit | 影响关系 | 哪些因素【 X 】影响人们是否购买电影票【Y 】 | Y(定类,2项) X(定量/定类) |
多分类Logit | 影响关系 | 哪些因素【 X 】影响人们购买不同类型电影票【 Y 】 | Y(定类,2+项) X(定量/定类) |
散点图 | 数据关系 | 身高【 X 】和体重【 Y 】的关系情况,并且区分性别【颜色区分】 | Y(定量) X(定量) 颜色区分(定类) |
直方图 | 正态性 | 身高数据是否正态分布 | X(定量) |
箱线图 | 数据分布 | 身高数据的分布情况 | X(定量) |
词云图 | 数据展示 | 热点城市房价指数展示 | X(定量) 加权项(可选) |
总结
以上就是今天要讲的内容,本文仅仅简单介绍了笔者对从问卷设计到数据分析之间的联系,而SPSS又是数据分析的重要工具,作为新手可以大胆尝试,通过经验的积累,相信我们能共同进步,做出一套好的答卷。