今日课程内容
-
昨日内容回顾
-
数据处理-数据清洗
拆分
异常值
重复变量
计数
汇总
加权
计算新变量
缺失值处理
自动编码
昨日内容回顾
1.spss的基本操作(变量视图、数据视图)
2.spss的调查问卷
3.spss文件的导入
txt文件的导入(间隔符\t ,)
excel文件导入(时间数据的导入,要满足spss的日期格式)
如:2021年5月7日,导入到spss里面显示的是数字
4.spssd的数据处理
数据的获取-个案选择
数据的合并
个案合并(添加行数据)
变量合并(添加列数据)
数据的转置
补充:
时间、日期的操作
转换-》日期和时间向导-》提取日期部分(年、月、日)
数据处理
1.拆分:
本质就是对数据进行分组,可以通过描述统计查看结果
按照组:
数据统计在一个组织里面
按照组和组织:
每一个分组结果就是一个组织
2.汇总:
本质就是分组聚合(和、最大值、最小值)
3.替换缺失值
4.数据个案计数
股票数据
1 2 4 8 1 8 4 1 3 5 1
语文:A C C B D C D C A C A A
5.加权
通过描述分析制作交叉表,默认统计的是频率(计数)
对某个变量进行加权(权重开启),作用是在做数据分析交叉表可以对数据进行汇总。
6.计算新变量
7.变量重新编码
重新编码为相同的变量,覆盖原有变量
重新编码为不同的变量,创建新变量一列
8.标识重复值
提供2个数据值:主个案、重复个案
# 思考
1.一对夫妻,生了2个小孩,其中一个是男孩,另一个也是男孩的概率?
男 男
男 女
女 男
女 女 # 不满足第一个条件,排除
则概率为1/3
面试题:二分法查询
[1,4,7,9,11,15,17]
9
1-100
50
1-50
25
25-50
12.5
12.5-25
x = int(input())
min = 1
max = 17
mid = (max+min)/2
1、x == mid
2、x < mid
min = 1
max = mid-1
mid = (min+max)/ 2
3、x > mid
min = mid+1
max = 17
mid = (min+max)/ 2
1 3 5
2
(1+5)/2
1-2
(1+2)/2 1.5
min max
2.5 - 2
4、如果最大值小于等于最小值,数据无法查询