面试数据分析最重要的30+问题(一)

参考链接:
面试数据分析最重要的30+问题
参考书:
《行为统计学基础(第九版)》人民大学出版社2007
豆瓣链接
《时间序列与多元统计分析》上海交通大学出版社2016

注意题目的难度区分度

逻辑与统计学基础知识

1 什么是描述性统计?

描述样本或者总体的基本情况(事实)的一种统计方法
一般包括平均数、中位数、众数、分位数、方差、正态分布、偏度、丰度等

平均数:几何、算术、加权
加权平均数的应用场景:APP用户进行客群划分,多指标重要程度不同,算出一个总的分数出来再平均。
加权平均数的前提:标准化
标准化的目的:将不同指标的评价标准拉到同一个基线上(同比例缩放所有属性)
【补充特征缩放
当我们需要将特征值都归一化为某个范围[a,b]时,选MinMaxScaler
当我们需要归一化后的特征值均值为0,标准差为1,选StandardScaler

标准化的方法:求z值,首先减去平均值(所以标准化值的均值总是零),然后除以标准差,从而使得结果的分布具备单位方差。【平均值和标准差可以选择样本统计量或者是总体参数
标准化应用场景:同一个问题的评价数据有三类——时间类型数据、百分比数据、正整数

评估样本中的异常值
(1)日活多少算异常?方差
(2)给出一大堆数据要求寻找异常值
为什么要计算异常值:当样本量极大的时候,异常值可以显著地影响平均数。
怎样找出异常值:分位数与IQR
Q1-1.5IQR(较小异常值)
Q1+1.5IQR(较大异常值)
数据预处理之异常值处理

分位数:
四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。
1)第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字;
2)第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字;
3)第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距。
IQR = |Q3-Q1|

2 同比?环比?

什么是同比:与同期

  • 5
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值