一.SQL
大部分考点围绕join连接,聚合函数,窗口函数,列转换进行命题
1.join连接
- 重点掌握left join和inner join
- 这是数据分析师使用率最高的两个语法,一般笔试题,掌握这两个语法就可以轻松应对所有join
- 如果结果需要去重处理,我们可以通过group by或者distinct进行去重
2.聚合函数
- 考察应聘者对分组的理解及聚合函数的掌握情况
- group by语句通常会和聚合函数一起使用,按照一个或者多个列对结果进行分组,然后对每个组执行聚合操作
- having子句允许用户通过一个简单的语法完成原本需要通过子查询才能对group by语句产生的分组进行条件过滤的任务
3.窗口函数
- 可以对数据库函数进行实时分析处理
- 基本语法如下:
- 窗口函数位置,可以放以下两种函数:
- 专用窗口函数,包括rank,dense_rank,row_number
- 聚合函数:sum,avg,count,max,min
4.行转列
- lateral view用于和UDTF函数(explode,split)结合来使用
- 首先通过UDTF函数将数据拆分成多行,再将多行结果组合成一个支持别名的虚拟表
- 主要解决在select使用UDTF做查询的过程中查询只能包含单个UDTF,不能包含其它字段以及多个UDTF的情况
5.其它
- 字符串处理函数,round,ceiling,cast,date_format(),转置函数pivot
二.概率
1.贝叶斯公式
- 重点熟记贝叶斯公式:P(B|A)=P(A|B)/P(A)
- 举例:三门问题
2.随机变量及分布
- 重点掌握正态分布,二项式分布,均匀分布等常见分布类型
- 方差与期望定义,性质
- 举例:携程客服1小时内接听的电话数属于什么分布
3.三大抽样分布
- 卡方分布,F分布,T分布
- 举例:结合应聘公司的业务背景,举例说明这三大分布的应用场景,比如小样本AB测试如何进行显著性检验
4.参数估计
- 最大似然估计,无偏估计,区间估计
- 举例:需重点掌握这些估计的定义及相关推导证明
5.假设检验
- 这是AB实验非常核心的知识点
- 举例:第一类错误和第二类错误的定义
6.回归分析
- 举例:一元线性回归的主要前提假设是什么
7.其它
- 相关性检验,峰度,偏度,统计量,组合概率
- 重点掌握这些知识点的定义和性质
- 举例:person,Kendall,spearman三中相关分析方法的异同
- p值的正确理解:原假设为真时所得样本极端结果出现的概率,一旦出现p值,就有理由拒绝原假设,p值越小,拒绝的理由越充分
- 显著性水平(一个可允许的概率作为判断界限的小概率标准)和置信区间(真实值有一定概率落在测量结果的周围的程度)
- 大数定理和中心极限定理
三.开放题
1.异常归因类
- 设题原因:一般来说,互联网大厂都会构建自己的数据监控体系,作为数据分析师,除了解读数据并从数据中发现增长点,对数据异常的归隐定论也是重要的工作之一
- 举例:某电商平台,每日监控当日的成交额情况,突然有一天某类目成交额暴增,请问作为数据分析师你该如何分析?
- 问题确认:首先需要确认该问题是否真实存在,即校验数据的准确性。例如:数据提取是否存在逻辑错误,上游表是否存在重复记录的问题
- 确认有无外因,举例:1)环境影响,是否存在某爆款商品2)时间因素,是否存在季节性波动3)竞品因素
- 内因分析拆解:1)商品维度拆解:可设计相关指标定位异常行业,店铺等2)用户拆解:可以拆解是否存在高客单用户,因某个个体拉高了特定类目的成交额,其次我们可以根据用户的属性,比如地域,年龄,新老客等维度进行拆分解析
- 划重点:异常归因类问题建议有逻辑有结构的回答,体现基本严谨的分析思路
- 常见做法即排外拆内:排查有无外因影响后,通过业务涉及具体维度下钻分析
2.AB实验类
- 如果没有相关经验,会问你原理,步骤,衡量标准等基础概念
3.专业知识类
- 概率论与数理统计,机器学习,数据库
4.估算类
- 主要考察你的逻辑分析能力
- 举例:北京地铁站旁有多少个煎饼果子铺?上海有多少家早餐店?
5.指标体系类
- 举例:设计某策略的AB试验指标?上线一款新的APP,你打算如何布控监控体系?
- tips:面试公司的基础产品和功课了解
6.软问题
- 职业规划类:为什么选择数据分析师行业?你对数据分析师一职如何看?
- 实际工作类:如何成为一名优秀的数据分析师,如若入职,你有什么规划打算?
7.反问类
- 如若有这一环节,抓住宝贵机会,想办法变成自己的加分项,不要问无意义的废话
四.业务知识
-
AB测试,对照组实验组的选取,埋点的设置,尤其注意页面访问统计和用户浏览行为的相关指标,留存率的不同时段的分析
-
辛普森悖论
-
日活,月活,gmv的变动分析,这类都可以统归为指标异动分析,没有固定的答案,但要有一条自己的分析体系,重点是要划分好维度和内外部综合分析
-
为某个APP搭建一套指标体系,可以按照标准的人货场回答,也可以按照APP产品处于不同生命周期的阶段进行回答,思路正确且完整就行,当然不同业务类型的APP要回答不同的业务指标
-
商业变现(广告,增值服务,电商),这个经常会跟产品的生命周期结合,产品的不同阶段需要的引流和关注的用户群体是完全不一样的
-
归因分析和漏斗转化分析
-
用户画像(属性,行为,需求偏好)