面试题小结 (数据分析)

一.SQL

大部分考点围绕join连接,聚合函数,窗口函数,列转换进行命题

1.join连接

  • 重点掌握left join和inner join
  • 这是数据分析师使用率最高的两个语法,一般笔试题,掌握这两个语法就可以轻松应对所有join
  • 如果结果需要去重处理,我们可以通过group by或者distinct进行去重

2.聚合函数

  • 考察应聘者对分组的理解及聚合函数的掌握情况
  • group by语句通常会和聚合函数一起使用,按照一个或者多个列对结果进行分组,然后对每个组执行聚合操作
  • having子句允许用户通过一个简单的语法完成原本需要通过子查询才能对group by语句产生的分组进行条件过滤的任务

3.窗口函数

  • 可以对数据库函数进行实时分析处理
  • 基本语法如下:
  • 窗口函数位置,可以放以下两种函数:
  • 专用窗口函数,包括rank,dense_rank,row_number
  • 聚合函数:sum,avg,count,max,min

4.行转列

  • lateral view用于和UDTF函数(explode,split)结合来使用
  • 首先通过UDTF函数将数据拆分成多行,再将多行结果组合成一个支持别名的虚拟表
  • 主要解决在select使用UDTF做查询的过程中查询只能包含单个UDTF,不能包含其它字段以及多个UDTF的情况

5.其它

  • 字符串处理函数,round,ceiling,cast,date_format(),转置函数pivot

二.概率

1.贝叶斯公式

  • 重点熟记贝叶斯公式:P(B|A)=P(A|B)/P(A)
  • 举例:三门问题

2.随机变量及分布

  • 重点掌握正态分布,二项式分布,均匀分布等常见分布类型
  • 方差与期望定义,性质
  • 举例:携程客服1小时内接听的电话数属于什么分布

3.三大抽样分布

  • 卡方分布,F分布,T分布
  • 举例:结合应聘公司的业务背景,举例说明这三大分布的应用场景,比如小样本AB测试如何进行显著性检验

4.参数估计

  • 最大似然估计,无偏估计,区间估计
  • 举例:需重点掌握这些估计的定义及相关推导证明

5.假设检验

  • 这是AB实验非常核心的知识点
  • 举例:第一类错误和第二类错误的定义

6.回归分析

  • 举例:一元线性回归的主要前提假设是什么

7.其它

  • 相关性检验,峰度,偏度,统计量,组合概率
  • 重点掌握这些知识点的定义和性质
  • 举例:person,Kendall,spearman三中相关分析方法的异同
  • p值的正确理解:原假设为真时所得样本极端结果出现的概率,一旦出现p值,就有理由拒绝原假设,p值越小,拒绝的理由越充分
  • 显著性水平(一个可允许的概率作为判断界限的小概率标准)和置信区间(真实值有一定概率落在测量结果的周围的程度)
  • 大数定理和中心极限定理

三.开放题

1.异常归因类

  • 设题原因:一般来说,互联网大厂都会构建自己的数据监控体系,作为数据分析师,除了解读数据并从数据中发现增长点,对数据异常的归隐定论也是重要的工作之一
  • 举例:某电商平台,每日监控当日的成交额情况,突然有一天某类目成交额暴增,请问作为数据分析师你该如何分析?
  • 问题确认:首先需要确认该问题是否真实存在,即校验数据的准确性。例如:数据提取是否存在逻辑错误,上游表是否存在重复记录的问题
  • 确认有无外因,举例:1)环境影响,是否存在某爆款商品2)时间因素,是否存在季节性波动3)竞品因素
  • 内因分析拆解:1)商品维度拆解:可设计相关指标定位异常行业,店铺等2)用户拆解:可以拆解是否存在高客单用户,因某个个体拉高了特定类目的成交额,其次我们可以根据用户的属性,比如地域,年龄,新老客等维度进行拆分解析
  • 划重点:异常归因类问题建议有逻辑有结构的回答,体现基本严谨的分析思路
  • 常见做法即排外拆内:排查有无外因影响后,通过业务涉及具体维度下钻分析

2.AB实验类

  • 如果没有相关经验,会问你原理,步骤,衡量标准等基础概念

3.专业知识类

  • 概率论与数理统计,机器学习,数据库

4.估算类

  • 主要考察你的逻辑分析能力
  • 举例:北京地铁站旁有多少个煎饼果子铺?上海有多少家早餐店?

5.指标体系类

  • 举例:设计某策略的AB试验指标?上线一款新的APP,你打算如何布控监控体系?
  • tips:面试公司的基础产品和功课了解

6.软问题

  • 职业规划类:为什么选择数据分析师行业?你对数据分析师一职如何看?
  • 实际工作类:如何成为一名优秀的数据分析师,如若入职,你有什么规划打算?

7.反问类

  • 如若有这一环节,抓住宝贵机会,想办法变成自己的加分项,不要问无意义的废话

四.业务知识

  • AB测试,对照组实验组的选取,埋点的设置,尤其注意页面访问统计和用户浏览行为的相关指标,留存率的不同时段的分析

  • 辛普森悖论

  • 日活,月活,gmv的变动分析,这类都可以统归为指标异动分析,没有固定的答案,但要有一条自己的分析体系,重点是要划分好维度和内外部综合分析

  • 为某个APP搭建一套指标体系,可以按照标准的人货场回答,也可以按照APP产品处于不同生命周期的阶段进行回答,思路正确且完整就行,当然不同业务类型的APP要回答不同的业务指标

  • 商业变现(广告,增值服务,电商),这个经常会跟产品的生命周期结合,产品的不同阶段需要的引流和关注的用户群体是完全不一样的

  • 归因分析和漏斗转化分析

  • 用户画像(属性,行为,需求偏好)

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1.栈和队列的共同特点是(只允许在端点处插入和删除元素) 4.栈通常采用的两种存储结构是(线性存储结构和链表存储结构) 5.下列关于栈的叙述正确的是(D) A.栈是非线性结构B.栈是一种树状结构C.栈具有先进先出的特征D.栈有后进先出的特征 6.链表不具有的特点是(B)A.不必事先估计存储空间 B.可随机访问任一元素 C.插入删除不需要移动元素 D.所需空间与线性表长度成正比 7.用链表表示线性表的优点是(便于插入和删除操作) 8.在单链表中,增加头结点的目的是(方便运算的实现) 9.循环链表的主要优点是(从表中任一结点出发都能访问到整个链表) 10.线性表L=(a1,a2,a3,……ai,……an),下列说法正确的是(D) A.每个元素都有一个直接前件和直接后件 B.线性表中至少要有一个元素 C.表中诸元素的排列顺序必须是由小到大或由大到小 D.除第一个和最后一个元素外,其余每个元素都有一个且只有一个直接前件和直接后件 11.线性表若采用链式存储结构时,要求内存中可用存储单元的地址(D) A.必须是连续的 B.部分地址必须是连续的C.一定是不连续的 D.连续不连续都可以 12.线性表的顺序存储结构和线性表的链式存储结构分别是(随机存取的存储结构、顺序存取的存储结构) 13.树是结点的集合,它的根结点目是(有且只有1) 14.在深度为5的满二叉树中,叶子结点的个为(31) 15.具有3个结点的二叉树有(5种形态) 16.设一棵二叉树中有3个叶子结点,有8个度为1的结点,则该二叉树中总的结点为(13) 17.已知二叉树后序遍历序列是dabec,中序遍历序列是debac,它的前序遍历序列是(cedba) 18.已知一棵二叉树前序遍历和中序遍历分别为ABDEGCFH和DBGEACHF,则该二叉树的后序遍历为(DGEBHFCA) 19.若某二叉树的前序遍历访问顺序是abdgcefh,中序遍历访问顺序是dgbaechf,则其后序遍历的结点访问顺序是(gdbehfca) 20.据库保护分为:安全性控制、 完整性控制 、并发性控制和据的恢复。 1. 在计算机中,算法是指(解题方案的准确而完整的描述) 2.在下列选项中,哪个不是一个算法一般应该具有的基本特征(无穷性) 说明:算法的四个基本特征是:可行性、确定性、有穷性和拥有足够的情报。 3. 算法一般都可以用哪几种控制结构组合而成(顺序、选择、循环) 4.算法的时间复杂度是指(算法执行过程中所需要的基本运算次) 5. 算法的空间复杂度是指(执行过程中所需要的存储空间) 6. 算法分析的目的是(分析算法的效率以求改进) ............ .................

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值