数分面试常考知识点

目录

一、网易2021年校招提前批(两道业务题、两道SQL简单题略)

1、第一题:分析思路+指标选择

2、 第二题:分析思路+指标选择

二、小红书2020校招数据分析笔试题卷四

1、第一题:一元二次方程

 2、第二题:几何分布叠加问题

3、第三题:EXCEL字符串合并:&

4、第四题:不重置抽样的方差计算

5、第五题:环比的计算

6、第六题:概率论—互斥

7、第七题:机器学习—判别模型

8、考点:概率论

9、考点:统计学中的抽样估计、时间序列的基本概念

10、考点:机器学习

11、考点:机器学习的应用

 12、考点:假设检验的应用流程

13、考查sumifs、countifs、pow

14、考点:left join、right join、union、full join

15、考点:AB Test评估指标选择

16、考点:异常分析

 17、典型考点:异常分析(指标上升下降原因分析)

 18、开放性题目

19、假设检验

20、预估类问题

 21、开放性问题


(PS:数分需要会:业务题、SQL、概率论、python、机器学习、EXCEL)

一、网易2021年校招提前批(两道业务题、两道SQL简单题略)

1、第一题:分析思路+指标选择

花呗分期作为支付宝的一个支付手段,已经普遍被大家使用。网易严选作为网易旗下自营电商品牌,也开通了花呗分期的功能,运营希望通过花呗分期免息的活动,促进销售额的增长、提升用户体验。在前期活动设置的时候,运营同学找到了作为数据分析师的你,希望可以解决下面的问题:
1、分期门槛(如满**元免息)、免息期数(3期、6期、12期等)要如何设置,请列出具体分析的思路和理由。
2、花呗免息的活动效果需要如何评估,请列出具体评估的指标和方向。

 牛客上的答案:

1.对于免息门槛:

方法一、从影响用户是否购买出发。假设: 

a.免息门槛越低,用户越倾向于分期购买;
b.免息门槛低于某一阈值后,分期不再影响用户是否购买。 

所以问题的关键是找到这个阈值:从历史数据中计算每个免息门槛对应的购买率,找到购买率不再增加的拐点。 

方法二、从提高购买用户消费额度出发。假设: 

a.免息门槛能刺激用户产生更多消费; 

问题的关键是评估用户日常的消费能力,在这个基础上提高一些,设置为免息门槛:通过用户历史购买行为,计算用户每月平均消费水平,在这个基础上提高特定比例(如20%),设置为该用户的免息门槛。 

对于免息期数: 

免息期越长用户越倾向于分期购买,但平台需要支付更多利息给花呗。 

如果单纯从营业额增长的角度,选择免息期数最长的方案合适。 

2.活动效果评估 

指标上应该比较参与免息活动和不参与免息活动的用户,在活动期间的人均营业额。 

可选的方案是在活动中随机保留一定比例的用户(如5%)不参与免息活动,以这部分用户的表现作为对照的标准即可评估活动效果。
或者在活动初期流量平均分配到两组中,确定活动效果好后再将流量全部引入免息活动中。

2、 第二题:分析思路+指标选择

各大平台相继推出和迭代付费会员策略,如优酷会员、京东PLUS会员、网易云音乐黑胶VIP等,通过提供丰富的权益吸引用户成为付费会员,提升用户黏性和忠诚度。请围绕付费会员回答以下问题:
1.以网易云音乐黑胶VIP为例,运营同学希望推出活动吸引用户开卡。一种方式是年卡买一送一,即支付一年的年费享受两年的会员权益;一种方式是年卡费用五折。你认为哪种方式更好?请给出具体的理由。
2.网易云音乐和网易严选推出了联合会员,即购买云音乐的黑胶VIP,可以赠送一年的严选Pro会员。作为分析师,你将如何评估联合会员活动的成本收益?请给出具体的评估指标。

 牛客上的答案:

1.年卡五折好。 优势主要有以下几点: 

a.吸引潜在用户:买一送一更吸引产品的长期忠诚用户购买,但这部分用户本身黏性比较高,我们更应该关注把潜在用户培养成长期忠诚用户,直接打折价格优势更明显。 

b.突出价格优势:打折是立刻生效的优惠,更能刺激用户消费,相比起第二年才能拿到的权益,用户更容易被眼前的直接利益吸引。 

2. 收益有两个部分:a.卖会员卡得到的收入;b.成功转化为严选用户节省的获客成本;成本有两个部分:a.网易云音乐每个会员平均的成本;b.这部分用户从严选平台薅走的羊毛;利润=卖会员卡得到的收入+成功转化为严选用户节省的获客成本-网易云音乐每个会员平均的成本-这部分用户从严选平台薅走的羊毛。

二、小红书2020校招数据分析笔试题卷四

1、第一题:一元二次方程

如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人就一定会选择在此购买;价格每增加1元,客人的流失的可能性就会增加1%。那么该商户给客人报出最优价格为(550元)

解析:最低价500,即为成本。要求定价为多少时,利润能最大。设价格涨幅为x,利润为y,M为顾客数未知,但是一个固定值。求二元一次方程y=M(1-x/100)x的最大值。

 2、第二题:几何分布叠加问题

在一次集卡活动中,有5种不同的卡片以相同的概率出现,每分享一次笔记就可以得到一张卡片,集齐所有卡片所需点赞的笔记数量的期望,与以下哪个结果最为接近?(11)9,11,13,15

解析:这是一个几何分布叠加问题, 几何分布的数学期望E(X)=1/p(成功概率的倒数)。第一次拿到了1种,期望是1,第二次拿到剩余4种中的1种,p=4/5,E=5/4,第三次拿到剩余3种中的1中,p=3/5,E=5/3,第四次拿到剩余2种中的1中,p=2/5,E=5/2,第五次拿到剩余1种,p=1/5,E=5。总的期望就为:1+5/4+5/3+5/2+5,约等于11.42

3、第三题:EXCEL字符串合并:&

在excel中如何将列a的字符值与列b的字符值合并为一个字符串c()答案:c=a&b

4、第四题:不重置抽样的方差计算

调查全公司1000名员工平均交通费用支出情况,采取不重置抽样,从其中抽取100名进行调查。根据以往调查可知总体方差s²为100,则样本均值的方差为:答案(100/111)

5、第五题:环比的计算

已知2-5月环比增长速度分别为5.6%、7.1%、8.5%、6.4%,则5月对比1月的增速是:

答案:(105.6%×107.1%×108.5%×106.4%)-100%

6、第六题:概率论—互斥

“鱼与熊掌不可得兼”的意思是:得熊掌就不得鱼 (互斥)

7、第七题:机器学习—判别模型

判别模型有哪些?选项:隐马尔科夫、决策树、支持向量机、朴素贝叶斯、最大熵模型

答案:

常见的判别式模型有逻辑回归、线性回归、支持向量机、提升方法、条件随机场、人工神经网络、随机森林、感知器、最大熵模型等。

典型的生成模型包括:高斯混合模型和其他混合模型、隐马尔可夫模型、随机上下文无关文法、朴素贝叶斯分类器、AODE分类器、潜在狄利克雷分配模型、受限玻尔兹曼机 

 知识点:判别模型是一种对未观测数据y与已观测数据x之间关系进行建模的方法,直接对条件概率p(y|x;θ)建模。与生成模型不同,判别模型不考虑x与y间的联合分布。但对于诸如分类和回归问题,由于不考虑联合概率分布,采用判别模型可以取得更好的效果。生成模型是所有变量的全概率模型,而判别模型是在给定观测变量值前提下目标变量条件概率模型。因此生成模型能够用于模拟(即生成)模型中任意变量的分布情况,而判别模型只能根据观测变量得到目标变量的采样。判别模型不对观测变量的分布建模,因此它不能够表达观测变量与目标变量之间更复杂的关系。因此,生成模型更适用于无监督的任务,如分类聚类。(ps:下图摘自牛客网)

8、考点:概率论

X服从区间(1,5)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于2的概率:0.84375(或27/32)

9、考点:统计学中的抽样估计、时间序列的基本概念

抽样估计的优良标准有三个:无偏性、 一致性、有效性

影响时间序列的因素有四个: 长期趋势、季节变动、循环波动、不规则波动

10、考点:机器学习

请给出三种常见的聚类算法

 正确答案:

1 K-means聚类、K-中心点聚类、CLARANS算法,DIANA算法、BIRCH算法、Chameleon算法

2 EM算法

3 OPTICS算法、DBSCAN算法

11、考点:机器学习的应用

小红书人脸识别系统识别当前进入小红书公司人员的身份,此系统一共识别三种不同的人员:员工,送餐员和陌生人。哪种学习方法适合此种应用需求:答案:多分类

 12、考点:假设检验的应用流程

小红书在首页上线了一个新的模块,目的是为了提升用户的浏览时长,请设计一套分析方案,衡量模块上线后对用户停留时长是否有提升?

 牛客答案:

采用假设检验的方法衡量模块上线后对用户停留时长是否有提升。假定,用户停留时长为stay_time。将用户均匀分为两组,一组为对照组,一组为实验组。 对照组不上线新模块,实验组上线新模块,采集对照组和实验组用户每天的浏览时长,分别为stay_time_X0,stay_time_X1 

(1)原假设:用户停留时长没有提升,即,stay_time_X0 = stay_time_X1

备择假设 :用户停留时长提升,即,stay_time_X0 < stay_time_X1

(2)选取5%为显著性水平临界值

(3)计算最小样本量,采集数据
考虑到指标的周期性,时间周期选取2周。采集实验开始前一天,两组用户的数据,是否存在明显差异,如无,继续观察前两天的数据,是否存在异常。 如无异常,继续采集数据。 

(4)使用T检验,计算p值 

(5)得出结论:若p值<5%,则推翻原假设,备择假设成立,新的模块能显著提升用户停留时长。反之,不能推翻原假设,不能判断新的模块是否能提升用户停留时长。

13、考查sumifs、countifs、pow

=SUMIFS(sum_range,criteral_range1,criterl1,criteral_range2,criterl2,...)

  • sum_range:指进行求和的单元格或单元格区域(求和区域)
  • criteral_range:条件区域,在求和时,该区域将参与条件的判断
  • criterl:通常是参与判断的具体一个值,来自于条件区域

=COUNTIFS(criteria_range[N],criteria[N])

  • criteria_range[N]:指要进行计数的单元格或单元格区域(条件区域)
  • criteria[N]:条件值。

复合增长率的计算:(现有价值/基础价值)^(1/期数) - 1

pow(160/120,1/3)-1

14、考点:left join、right join、union、full join

Oracle支持full join,mysql是不支持full join的,等价于左外连接+ union+右外连接实现 

15、考点:AB Test评估指标选择

经过一番研究后,我们开发出了商品页面上“相关商品”模块的一个新的推荐算法,并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验组)来对新的算法效果进行评估。假设你是此次实验的数据分析师,请问你会如何评估控制组和实验组的表现?(假设需要数据都可取到)请按重要性列出最重要的三个指标并给出你的分析过程/思考。

答案:

(1)指标:用户实际的GMV、进入商品详情页后加购/立即购买的转化率、CTR(相关商品卡片的点击/曝光)。【销售总额(GMV),反映新的推荐算法是否为商家带来更高的利润。相关商品的点击量,直观的反映新的推荐算法推荐的商品是否吸引顾客。进入相关商品页面后的付费率,反映推荐商品是否是顾客所需要的。】
(2)方法:假设检验 。

1.设原假设为使用新的推荐算法后上述指标降低或不变,备择假设为使用新的推荐算法后上述指标增加 

2.选择显著性水平临界值为5%,采集数据 

选择周期时间为2周,在数据采集前检查两组数据是否有明显差异,若无,继续采集数据 

3.使用T检验,计算P值 

4.分析结论,如果P值小于5%,那么原假设不成立,备择假设成立,即使用新算法后指标提升, 

反之无法推翻原假设,不能证明使用新算法后指标提升

16、考点:异常分析

如果我们发现,某店铺的X品类在今年3月的销量,比去年3月的销量下降了50%,如果你是负责此次分析的数据分析师,你会如何分析?请写出你的分析思路/过程/想法。

总结:针对异常分析,1)判断数据的正确性;2)判断数据下降是否是正常现象,看同比、环比;3)进行外部分析:环境分析、时间分析、竞品分析;4)进行内部原因分析:用户维度、商品维度,在维度分析阶段进行指标拆解。

 答案1:

  1. 检验数据是否正确 
  2. 指标拆分 
  • 销量=日均销量*30=订单数*(1-订单取消率-退货率)*30; 
  • 退货率=退货数/订单总数,进一步分析退货原因:质量问题/恶意退货/客服服务问题; 
  • 订单取消率=订单取消数/订单总数,进一步分析订单取消原因,竞品性价比高/服务好/店面设计好/店铺评分高 
  • 订单数=咨询数*(1-咨询流失率)+加入购物车*(1-购物车流失率)+直接下单 咨询流失定位原因回复不及时/不准确 
  • 用户群体,老用户销量 新用户销量 不同渠道转化率 

将指标与同期进行对比,定位问题 

同时关注关键指标GMV是否下降明显

 答案2:2020年小红书校招数据分析笔试题_无精疯的博客-CSDN博客

  • 排除数据本身的问题:首先是确定数据是否正确,数据来源、口径是否无误,然后再接下去分析;

  • 确认跌幅合理性:下降了50%,结合环比,同比,同期群分析它的跌幅是否合理;

  • 分析外部原因:有哪些可能的外部原因和下降有关,有关到什么程度,比如是否是其他相关部门进行了产品迭代、运营策略的调整、设备故障等因素;

  • 分析内部原因:这就可以从多个维度进行分析了,比如从用户、产品、市场的角度分别分析,还可以进行指标拆分;

  • 确认影响程度:确认到底是哪一环节出了问题导致指标的下降,该指标的下降对关键指标有无影响,影响程度如何;

  • 制定巩固措施:以后怎么避免该类问题发生。

 17、典型考点:异常分析(指标上升下降原因分析)

某APP 7月份DAU比同年5月份上涨了10%,作为数据分析师,你会从哪些方面分析DAU增长的原因? 请列举至少两种以上拆分思路。

 答案1:

1. 按短期和长期因素拆分 

此处DAU上升现将其拆分为长期因素和短期因素,长期因素表现在用户量的长期趋势,如一年来app的日活指标都是呈上升态,可估算5月到7月按既往趋势的DAU增长量(换算为量而非百分比),比如使用移动平均等预测手法计算;在剔除了趋势增长量的基础上,考虑短期因素,考虑在7月和5月间有无重大社会事件、商业事件,社会事件可以是某种舆论造成App的关注度提升,商业事件可考虑商业合作和商业活动(618),可以以各月的舆论热度作为对比的指标。 

2. 按内外部变化拆分 

日活的变化第一是产品本身某个改动点获得认可,可以通过abtest、用户研究等方式来检验;外部变化是市场环境,可以从市场趋势和市场竞争(交互作用)两方面来分析,市场趋势开始提倡或推动本类产品的增长(用户增长潜力),而从分割市场的角度解释市场竞争,一个固定容量的市场,一些产品倒下或增加,必将导致用户量的集中和分散,因此可考虑分析近几个月的行业舆情和竞争对手运营情况。 

3. 按时空来拆分
可以将日活细拆为地区、城市的粒度,然后进行相应的对比,分析具体的日活增长点是某一个城市、还是某些城市还是所有城市,如果是某个或某几个城市,如可以分析这些城市的渗透率的变化,是否和其他日活变化不大的城市的渗透率相差较大,则可以归结于业务推广的功劳。若所有城市日活都在上升,则可以考虑该增长与野夫分析无关,考虑其他因素,如竞品退出、市场趋势、产品改进等有关

 答案2:

step1:确定数据是否存在异常:基于历史数据,利用移动平均等预测方法,预测7月DAU数值,与2-3倍标准差做对比,判断实际数值是否处于正常范围。(也就是判断DAU上涨10%这是一个趋势,还是一个问题,是长期因素导致的,还是短期内社会事件等因素导致的。) 

step2:拆分数据维度:人群拆分、渠道拆分、地理拆分、内外部拆分(拆分的核心是找出哪些影响因素导致了数值的异常,从各个维度判断是整体因素还是某类因素)。 

① 人群拆分:新老用户维度、性别维度、年龄维度、职业维度等等。 

② 渠道拆分:从新用户的的引入渠道、APP的跳转入/跳转出渠道、分享渠道、付费渠道等。 

③ 地理拆分:从地区、城市、县级等粒度,拆分数据,分析DAU增长点是发生在某类城市、还是整体市场的变化。如果是在某个或某类城市的变化,则进一步分析其DAU增长原因。同时对比其渗透率与DAU变化较小的城市渗透率,判断这类城市的变化对整体DAU变化的影响程度。 

④ 内外部拆分:内部主要指产品本身的改动点是否获得用户认可,包括产品模块的改动、产品运营策略的改动,可通过A/B Test、用户调研等方式进行检验。  外部可以从市场趋势、市场竞争、外部舆论、社会事件、节假日、PEST模型等因素考虑,可利用舆论热度、关键词搜索量、ADX等指标衡量趋势类因素,也可从分隔市场角度解释市场竞争因素(在固定容量的市场环境中,一些产品的倒下或爆红,将导致用户量的集中和分散)。 

step3/4/5/6/7/8/9:具体维度考察技术、产品、运营,进一步细化DAU增长原因,分析问题,预测8月趋势变化,并为后续运营策略提优化建议。

 18、开放性题目

挑选任意一款你使用过的社区类APP(不包括小红书),回答以下问题:
(1)描述使用这款APP的用户特征,并比较该APP用户特征与小红书用户特征的异同
(2)预估每一天有多少人在这款app上发布内容。请写出你需要的辅助数据,并简述预估的方法

(3)你选择的这款APP近期拟邀请ABC三组艺人中的一组开展联动活动,活动的主要目的为提升DAU。 

在活动形式完全一致的前提下,你将选择哪一组? 

作答要求:1)简述分析思路,2)列出对应的数据指标

19、假设检验

 经过一番研究,我们决定在新用户首次激活APP时增加一个短视频介绍页面来增加用户对产品的感知,并且打算通过AB Test(50%为控制组,50%的用户首次激活时会看到短视频介绍)来进行评估。假如你是此次实验的数据分析师,请问你会如何评估控制组和实验组的表现?请列出你认为重要的指标,给出分析过程和可能用到的统计方法。

 目的应该是了解用户在观看短视频介绍页面后的行为,以此来判断短视频介绍页面是否有用。 

  • 指标:关注实验组短视频点击率,跳出率,观看时长,对比两个组的用户激活量,注册激活率,以及后续的留存情况。

  • 方法:假设检验

20、预估类问题

小红书上海办公室楼下有一便利店,面积约为20平方米,主要提供零食及饮料。请预估该便利店每周的营业额是多少? 

 答案:

营业额可以拆分为客流量X平均消费额。面积20平,10平放置货物,10平顾客区,可以同时容纳5个顾客,假设消费时长人均10分钟,那么一个小时客流量30人,人均消费25元,一天10个小时营业时间,每周营业额302510*7=52500元。

 21、开放性问题

如果APP有一个功能是用户的位置信息能够每隔1分钟上传一次数据库,那么怎么发挥它的作用? 

参考:这题的回答方向应该是用这个用户的位置信息能做什么事。比如根据位置信息可以获取用户的行为轨迹,进而分析出用户的行为习惯,进行相应的实时推荐服务等。


小主陪你唠嗑:

首先呢,面试考点如下:

1、AB测试的流程、AB测试不显著怎么办?AB测试结果的评估(指标的选择)(重点!!)

2、假设检验(ABtest 就是运用了假设检验)(第一类错误、第二类错误、P值、显著性检验、显著性水平)

3、辛普森悖论(重点!!)

4、DAU下降了/上升了怎么分析?GMV下降了怎么分析?考点:异常分析(常考!!)

5、机器学习原理、应用场景、优缺点、评估指标(随机森林模型、聚类模型k-means的原理、bagging与boosting 的区别、xgboost与GBDT的区别、机器学习模型的评估指标(回归模型的评估指标、分类模型的评估指标))

6、其实有时候也会问概率题(泊松分布、二项分布、几何分布、均匀分布、超几何分布)(方差分析)

笔试注重:SQL 、概率题  、业务题(指标的选择、异常分析)

参考1:作者:可乐的数据分析之路 链接:https://www.jianshu.com/p/8b3e78cfb163 

参考2:牛客网 登录—专业IT笔试面试备考平台_牛客网

  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值