数据分析实习-业务题准备

数据分析实习-业务题准备

想挑战一下自己能不能做一做数据相关的工作,准备在暑期尝试投一投数据分析相关的实习。

虽然希望不大,但还是要努力准备一下,整理了一部分面试/笔试时可能会考的业务题(来源各处的面经、笔经),尽量考虑面试和自己能掌握的实际,梳理了自己的思维模板,并非是很专业的整理,总结如下:

一、费米(估算)问题

总体原则:自上而下拆解,自下而上计算。

涉及分析方法:逻辑树分析、多维度拆解分析。

目标:估算结果上下浮动范围不超过10倍即可。(from《这也能想到?——巧妙解答无厘头问题》)

(一)确认估算对象

确认是否需要 细化对象 or 转换对象

eg1:估算一个星巴克门店的销售额。

eg2:估算芝加哥有多少名钢琴调音师。

对于eg1,可以根据二八原则细化,星巴克的销售产品主要以饮品为主,而饮品主要以咖啡为主,因此估算对象确定为咖啡的销售额;

对于eg2,将芝加哥的钢琴调音师数量转换为:芝加哥每年需要调音的钢琴数量 / 每个调音师每年能调多少台钢琴。

(二)拆解估算对象

需求层 and 供给层 展开考虑。

1. 需求维度

需求值 =市场总需求规模 = 需求单位数 × 单位需求量 × 单位需求频次

需求单位数 = 需求人群 × 人群转化率

eg3:估算北京市一日卖出的油条数量。

需求单位数 = 北京市吃油条的人数 = 需求人群 × 人群转化率 = 北京市人口 × 选择吃油条的比例 = 约2000万人 × 约5% ≈ 100 万人

需求值 = 北京市一日卖出的油条数量 =需求单位数 × 单位需求量 × 单位需求频次 = 北京市吃油条的人数 × 每次吃几根 × 一天吃几次 = 100万人 × 1根/次 × 每天只早餐吃1次 ≈ 100万根油条

2. 供给维度

供给值 = 市场总供给能力 = 供给单位数 × 单位供给量 × 供给时段

供给单位数 = 市场总区域 / 单位平均辐射区域

供给时段 = SUM(不同时段时间,主要用在区分 闲时忙时、淡季旺季 的场景)

eg3:估算北京市一日卖出的油条数量。

供给单位数 = 北京油条店的数目 = 市场总区域 / 单位平均辐射区域 = 北京市面积 / (五环内每1平方千米有2家油条店,五环外每2平方千米有1家油条店) = 约735万平方千米*2 + 约15700平方千米 / 2 ≈ 9320家店

供给时段 = SUM(不同时段时间) = 1天

供给值 = 北京市一日卖出的油条数量 = 供给单位数 × 单位供给量 × 供给时间 = 9320家店 × 100根/天 × 1天 ≈ 93.2万根油条

(三)对比估算结果

因为供需是会动态平衡的,因此若需求层和供给层算出的估计值相差在合理范围内(不要差得太离谱就可以),则可以得出一个大致的估计值or估计范围。

对比可知,北京市一日卖出的油条数量大约在93.2万~100万根油条(or大约96.5万根)。

若相差太离谱,可能需要重新考虑上述计算的过程,或者直接进入下一环节。

(四)关注可能的误差

最后需要列出可能出现误差的影响因素,比如:需求人群可以再进一步细分、供给单位的平均辐射区域大小有待考证……

比如eg3估算过程中的“五环内每1平方千米有2家油条店,五环外每2平方千米有1家油条店”,需要进一步调研,又比如“北京市选择吃油条的比例”也可能需要问卷调查之类。

同时,还可以根据实际情况给出一些未来的改进办法,比如:抽样调查、观测历史数据……

二、A/B测试问题

没有在网上找到很多结合具体场景的A/B测试问题,因此这部分还是好好地把A/B测试的概念都梳理一遍。

涉及分析方法:对比分析、假设检验分析、群组(同期群)分析。

(一)定义

A/B test,又称分组隔离实验,简单来讲,A/B测试是一种比较手段:通过分析同一总体下,由于某些不同的策略导致样本数据表现出的差异,来推断某些策略的效果。

个人理解:为了同一个目标,制定多个方案并行测试,每个方案只有1个变量不同。让相似的用户群组使用各个不同的方案,收集每种方案的数据后,以某种规则选出最优方案。

本质:假设检验的一种实际应用。

(二)应用场景

① 产品迭代:如界面优化(改字体、增弹窗等)、功能增加、流程增加……

② 策略优化:如算法策略、运营策略、营销策略……

科学量化各个方案的效果(如ROI<投资回报率>等),衡量决策收益,避免拍脑袋决定。

不适用的场景:用户体验的制约(如价格调整)、样本数量制约(如防止侵害的安全类事件)、AB组间存在干扰(如滴滴司机间有司机群)。

(三)科学依据

科学的实验设计;科学的采样(随机化);科学的流量分割;科学的统计学原理(假设检验)。

(四)步骤

1. 分析现状,提出假设

分析业务数据,确定当前最关键的改进点/最可能的问题,根据问题提出假设。

假设有A、B两个方案,想确定A、B之间是否客观存在差异,还是这种差异仅由某种误差引起。因此假定:

H0(原假设/零假设):A、B没有本质差异

H1(备择假设):A、B确实存在差异

2. 设定目标,制定方案

设定主要的目标(重点关注的指标),用来衡量各种方案的优劣。

收集了一些经验贴以及相关网站(如华为开发者联盟字节火山引擎上的A/B测试产品)里提到的指标,然后利用用户生命周期(User Lifetime)梳理如下:

① 引入期:PV(Page View)、UV(Unique Visitor)、点击率

② 成长期:转化率、互动时长(观看时长等);

③ 成熟期:GMV(Gross Merchandise Volume);

④ 休眠期 + ⑤ 流失期:留存率

PS:这么分主要是为了熟悉和巩固下这个周期。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

新四石路打卤面

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值