谁说菜鸟不会数据分析python pdf_谁说菜鸟不会数据分析spss

第一章

:SPSS

概况

社会科学统计软件包

-->

统计产品和服务解决方案

-->IBM SPSS

SPSS

可调用

R

语言的各种统计包或

Python

的功能模块,实现最新统计方法的调用,增强

SPSS

的扩展性。

SPSS

为各分析阶段提供了丰富的模块功能。常用模块大致分为四个分析阶段

:

数据处理、描述性分析、推断性分析、探

索性分析

SPSS

不足之处:虽可以直接导出

txt

doc

ppt

xls

等文档格式,但通常与数据分析报告风格不符。

SPSS

常用窗口

:

数据窗口

(

菜单栏、数据视图、变量视图

)

和输出窗口

菜单栏中“数据”

“转换”用于数据处理相关操作。

“分析”用于数据分析相关操作。

数据视图中每一行叫做一个“个案”

,每一列叫做“变量”

SPSS

数据结果文件默认保存文件格式为

spv

,而

SPSS

数据文件默认保存文件格式为

sav

对各种统计方法的使用,只要了解统计分析的基本原理,无须通晓统计方法的各种算法

SPSS

涵盖了各种统计方法与模型,从简单的描述统计分析方法到复杂的多因素统计分析方法

第二章:数据处理

清洗、抽取、合并、计算、分组、标准化

常用数据类型:字符型数据、数值型数据、日期型数据

字符型数据是一种分类数据,分男女,分省份

...

数值型数据是一种特殊的分类数据,日期型数据可进行算术运算,是一种特殊的数值型数据

例:

职业变量

:1

代表白领、

2

代表蓝领、

3

代表金领。这时

1

2

3

只是标记,属于并列关系,没有次序关系

年龄变量

:1

代表

1

岁、

2

代表

2

岁、

3

代表

3

岁。这时

1

2

3

不仅是个标记,还有次序、大小关系,可以做算术运算

职业、年龄变量的数据类型都可以是数值型,但数值的具体含义不同,使用的统计方法也不同,这时就有必要给数据

变量增加一个测量尺度属性

在统计学中,按照对事物描述的精确程度,将采用的测量尺度从低到高分为四个层次:定类尺度、定序尺度、定距尺

度和定比尺度

数据导入注意第

4

7

数据清洗:将多余重复数据筛选清除、将缺失数据补充完整、将错误数据纠正或删除

重复删除

--Excel

中是有删除重复项的功能,可以直接删除重复的数据记录。

SPSS

则需要分步操作,先将重复记录找出

并标记,然后根据是否重复标记排序,将重复记录排在一起,再将其删除

数据

-->

标识重复个案

(

在此对话框中将所有变量都放入

[

定义匹配个案的依据

]

框中,

其它选项保持默认设置

)-->

生成一个

重复数据记录标识变量

最后一个基本个案

(0

代表重复个案,

1

代表唯一或基本主个案

)-->

选中

最后一个基本个案

量,单击右键,选择

[

升序排列

]-->

选中

最后一个基本个案

变量值为

0

的个案,单击鼠标右键,选择

[

清除

]

补充完整,错误数据纠正????

数据抽取:保留、抽取原数据表中某些字段、记录的部分信息,形成一个新字段、新记录。

(

主要学习字段拆分、随机

抽样两种方法

)

例:

身份证号码

字段可抽取出省份、城市、出生日期、性别等信息

Excel

中使用

Right

Left

Mid

函数进行相关字段的抽取、拆分。

SPSS

使用

Substr

函数进行字段拆分操作。

Substr(

符串,提取的起始位置,提取的字符个数

)

转换

-->

计算变量

-->[

函数组

]

选择

字符串

类,在

[

函数和特殊变量

]

中双击

Char.Substr(3)

函数

这时

Char.Substr(3)

函数就被移入

[

数字表达式

]

框中,

然后将表达式修改为

CHAR.SUBSTR(

身份证号码

,7,4)

完成了公式

的编写

-->

[

目标变量

]

框中,输入变量名称

年份

,并在

[

类型与标签

]

功能中设置类型为

字符串

计算变量这个功能在

SPSS

中非常常用,类似于

Excel

的编辑栏功能,通过输入函数或计算公式来新增变量。

随机抽样

:

简单随机抽样、分层抽样、系统抽样

数据

-->

选择个案

-->[

选择

]

框中选择

[

随机个案样本

]

项,单击

[

样本

]

按钮。此时

SPSS

在数据表最后一列新增一个

filter_$

变量,

0

表示记录未被选中抽取,

1

表示记录被选中抽取

如果希望将抽样得到的数据单独存为一份新的数据文件,

用于其他数据分析,

则可在上述操作中返回

[

选择个案

]

对话框

[

输出

]

框中,选择

[

将选定个案复制到新数据集

]

数据合并:

综合数据表中某几个字段的信息或不同的记录数据,

组合成一个新字段、

新记录数据。

(

主要操作

:

字段合并、

记录合并

)

例:将抽取出来的出生年份、月份、日,这三个字段合并成一个新字段

:

出生日期

Excel

中使用

Concatenate(Concat)

函数进行三个字段的合并

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值