一. 常用指标和术语
- 平均数:将总体内各单位的数量差异抽象化,代表总体的一般水平,掩盖了总体各单位的差异。
- 绝对数与相对数:从业务角度看,绝对数就是数量,相对数就是质量。绝对数反应客观现象总体在一定时间、地点条件下的总规模、总水平;相对数是指由两个有联系的指标对比计算而得到的数值。
- 百分比与百分点:百分比表示一个数是另一个数的百分之几;百分点表示不同时期以百分数的形式表示的相对指标的变动幅度。
- 频率与频数:频数是指个别数据重复的个数,频率是指每组类别次数与总次数的比值。
- 比例与比率:比例是指总体中各部分的数值占全部数值的比值;比率是指不同类别数值之间的对比。
- 倍数与番数:倍数是指一个数除以另一个数所得的商;番数表示原来数量的2的N次方倍(翻了一番就是2倍的意思)
- 同比与环比:同比是指与历史同期进行比较得到的数值,反应事物发展的相对情况;环比是指与前一个统计期进行比较得到的数值,主要反应事物逐期发展的情况。
二. 处理重复数据
方法一:函数法
COUNTIF函数:
1. =COUNTIF(range, criteria) #范围,计算条件
2. =COUNTIF(A:A, A2) # 查找出A2条件重复的次数
3. =COUNTIF(A$2:A9, A9) #查找A9之前重复了几次,把所有为1的记录条提取就是非重复项
删除重复数据:
在3号步骤之后,点击排序或者通过自定义筛选,取出值为1的记录。
方法二:高级筛选法
数据->排序和筛选->高级->选择筛选区域以及复制到的区域->勾选选择不重复的记录
方法三:条件格式法
选中区域->开始->条件格式->突出显示单元格规则->重复值
方法四:数据透视表法
插入->数据透视表->选择范围以及透视表摆放的位置->拖拽筛选字段到行标签->拖拽筛选字段到值
方法五:删除重复数据
数据->数据工具->删除重复数据
三. 处理数据缺失
- 查找空值位置:
方法一:定位输入
Ctrl+G or 开始->编辑->查找和选择->定位条件->勾选空值
方法二:以错误标识符出现的缺失值-查找替换
Ctrl+F 查找 “#DIV/0!” Ctrl+H 替换 “0”
- 处理缺失值:
(1). 样本平均值
(2). 统计模型计算出来的值
(3). 删除记录
(4). 在分析中看情况删除
四. 检查数据逻辑错误
- 利用IF函数
IF(logical_test, value_if_true, value_if_false) # if条件判断,为真应该返回值,为假应该返回值
- 利用条件格式
选中区域->开始->条件格式->突出显示单元格规则->其他规则->使用公式确定要设置格式的单元格。
OR(logical1, [ logical2 ], ... )[ =FALSE ] #logical1, logical2满足1个结果就为false
AND(logical1, [ logical2 ], ... )
五. 数据加工
- 字段分列
(1). 数据->数据工具->分列
(2). LEFT(text, [num_chars]) #得到字符串左边指定个数的字符
(3). RIGHT(text, [num_chars]) #得到字符串右边指定个数的字符
- 字段合并
(1). CONCATENATE(text1, text2, ...) #将文本连接
(2). & #将文本与数字连接需要把数字嵌套在TEXT()
- 字段匹配
VLOOKUP(lookup_value, table_array, col_index_num, range_lookup)