参考链接:
面试数据分析最重要的30+问题
参考书:
《行为统计学基础(第九版)》人民大学出版社2007
豆瓣链接
《时间序列与多元统计分析》上海交通大学出版社2016
注意题目的难度与区分度
逻辑与统计学基础知识
1 什么是描述性统计?
描述样本或者总体的基本情况(事实)的一种统计方法
一般包括平均数、中位数、众数、分位数、方差、正态分布、偏度、丰度等
平均数:几何、算术、加权
加权平均数的应用场景:APP用户进行客群划分,多指标重要程度不同,算出一个总的分数出来再平均。
加权平均数的前提:标准化
标准化的目的:将不同指标的评价标准拉到同一个基线上(同比例缩放所有属性)
【补充特征缩放
当我们需要将特征值都归一化为某个范围[a,b]时,选MinMaxScaler
当我们需要归一化后的特征值均值为0,标准差为1,选StandardScaler
】
标准化的方法:求z值,首先减去平均值(所以标准化值的均值总是零),然后除以标准差,从而使得结果的分布具备单位方差。【平均值和标准差可以选择样本统计量或者是总体参数】
标准化应用场景:同一个问题的评价数据有三类——时间类型数据、百分比数据、正整数
评估样本中的异常值
(1)日活多少算异常?方差
(2)给出一大堆数据要求寻找异常值
为什么要计算异常值:当样本量极大的时候,异常值可以显著地影响平均数。
怎样找出异常值:分位数与IQR
Q1-1.5IQR(较小异常值)
Q1+1.5IQR(较大异常值)
数据预处理之异常值处理
分位数:
四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。
1)第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字;
2)第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字;
3)第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距。
IQR = |Q3-Q1|
2 同比?环比?
什么是同比:与同期