数据分析开放问题面经汇总
数据分析的面试,基本上已深挖简历为主,以下是一些各个厂的开放问题汇总,可参考!
1、从数据分析师的角度来讲的话,你觉得我们应该怎么去论证加了广告之后用户体验更好还是更差?
从活跃用户数、视频完播率、投资回报比这3个角度展开去进行论证。
2**、以B站来讲我发现90%的视频播放量,集中在10%的内容上,你觉得我们应该怎么去分析这个问题?**
主要从活跃用户的总量角度去分析的。
3、现有一张用户成交订单表,表名:user_order_summary,字段如下:
uid 用户ID,主键
order_cnt 成交订单数
面试真题1:
请使用 MySQL 计算出成交订单数的众数。
首先了解一下众数的概念。众数(Mode)是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。也是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。
**情况①:**一组数据中,出现次数最多的数就叫这组数据的众数。
举例:1,2,3,3,4的众数是3。
**情况② :**如果有两个或两个以上个数出现次数都是最多的,那么这几个数都是这组数据的众数。
举例:1,2,2,3,3,4的众数是2和3。
**情况③:**如果所有数据出现的次数都一样,那么这组数据没有众数。
举例:1,2,3,4,5没有众数。
★参考答案
![](https://img-blog.csdnimg.cn/img_convert/b4b4b7bbac40385b5d2b9b31a13f8de9.png)
4、请使用 MySQL 计算出成交订单数的四分位数。
首先了解一下四分数的原理及计算逻辑。**四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。**它是一组数据排序后处于25%,中位数和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。
四分数的位置:
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.50
Q3的位置= (n+1) × 0.75
n表示项数,也就是计算样本量
▼ 情况①
数据为:6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36
由小到大排列:6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49
总共11项:
Q1的位置=(11+1)×0.25=3,所以Q1=13
Q2的位置=(11+1)×0.50=6,所以Q2=40
Q3的位置=(11+1)×0.75=9,所以Q2=43
▼ 情况②
数据总量:7, 15, 36, 39, 40, 41
一共6项:
Q1的位置=(6+1)×0.25=1.75,在第1和第2个之间
Q2的位置=(6+1)×0.50=3.50,在第3和第4个之间
Q3的位置=(6+1)×0.75=5.25,在第5和第6个之间
▼ 当Qi的位置并非整数,如何计算呢?
第一步:将数据从小到大排序,计为数组a,a[i]表示第i个位置的数值
第二步:确认四分位数的位置P,将P的整数部分计为c,小数部分记为d,比如Q1的位置为1.75,那么c=1,d=0.75
第三步:计算位置P对应的值,a[p] = a[c]+(a[c+1]-a[c])*d,比如Q1的位置1.75计算结果为a[1.75]=a[1]+(a[1+1]-a[1])*0.75=7+(15-7)*0.75=13
以此类推,可以计算得到:
a[Q1]=a[1.75]=a[1]+(a[2]-a[1])*0.75=13
a[Q2]=a[3.5]=a[3]+(a[4]-a[3])*0.5=37.5
a[Q3]=a[5.25]=a[5]+(a[6]-a[5])*0.25=40.25
5、模型过拟合怎么处理?
模型过拟合主要可以从以下几个方面入手:
获取更多数据,扩大数据量。
降低模型复杂度。
添加正则项。
改为集成学习。
6、请介绍一下SVM原理。
SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。(间隔最大是它有别于感知机)
情况①:当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机;
情况②:当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;
情况③:当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。
7、SVM为什么采用间隔最大化?
当训练数据线性可分时,存在无穷个分离超平面可以将两类数据正确分开。感知机利用误分类最小策略,求得分离超平面,不过此时的解有无穷多个。线性可分支持向量机利用间隔最大化求得最优分离超平面,这时,解是唯一的。另一方面,此时的分隔超平面所产生的分类结果是最鲁棒的,对未知实例的泛化能力最强。
8、为什么SVM要引入核函数?
当样本在原始空间线性不可分时,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。
9、假设拼多多近期GMV下滑严重,请问如何分析?
1、问题确认
首先,需要确认该问题是否真实存在,即校验数据的准确性。
例如:数据提取是否存在逻辑错误,上游表是否存在重复记录的问题?
2、确认有无外因,举例
环境影响:是否存在外界因素,比如受疫情影响,快递公司无法正常配送。导致线上无法成交。
时间因素:是否存在季节性的波动,比如双十一大促属于用户成交高峰期,而非双十一大促成交相对较少。
竞品因素:比如竞品淘特/抖音等上线大型补贴活动,势必会对拼多多产生较大的冲击。
3、内因分析拆解,提供一种思路,具体大家可以拓展发挥举例
货-商品维度拆解:例如可设计相关指标(如:贡献度)定位异常行业、店铺等
人-用户维度拆解:例如可根据用户的属性,比如地域,年龄,新老客,价值等级等维度进行拆分解析
场-场景维度拆解:例如可根据大盘常见场景有无做功能变动、策略迭代等进行拆解确认等等
10、怎么估算上海外卖员的数量?
▶ 指标拆解
外卖员的数量 = 每天订单总数 / 每人每天可配送的订单数
每天订单总数 = 目标用户数 / 点单频度
目标用户数 = 上海市总人数*点外卖人数占比
每人每天可配送的订单数 = 每天工作时间 / 完成一个订单需要的时间
完成一个订单需要的时间 = 商家距离/骑手速度+排队等待时间+目的地距离/骑手速度 + 用户等待时间
▶ 已知及假设
上海市总人数:2500w
点外卖人数占比:假设为40%
骑手每天工作时间:10H
商家距离:假设为3KM
骑手速度:25KM/h
排队等待时间:0.25H
目的地距离:4KM
用户等待时间:0H
▶ 计算可得
每天的总订单数 = 200w
每人每天可配送的订单数 = 18.9单
外卖员的数量=10.5万人