数据分析面试经验汇总

1、SQL中最近30天数据,最近30天的表达方式

SELECT * FROM 表名 where DATE_SUB(CURDATE(), INTERVAL 30 DAY) <= date(时间字段名)

2、贝叶斯定理

P(A|B)=P(B|A)P(A)/P(B),是一个条件概率,后验。通过例子来回答。

手机照相功能好,那么他购买手机的概率是多少?已知用户购买的手机的照相功能好的概率是40%,用户购买手机的概率是20%。手机照相功能好的概率是30%。

有三个袋子,一号袋子3红球7黑球,二号袋子8红2黑,三号袋子4红6黑,随机选一个袋子并从中取一个球,如果拿出红球,那么这个球来自三号袋子的概率。答案是4/15

3、如果某一天日活突然下降了,要如何去分析呢?

按照常规数据分析顺序,这个问题属于发现问题然后查找原因并提出解决方案的类型。

我会按照确定目标,搭建数据分析体系和分析指标,获取原始数据,数据清洗,数据分析,总结报告这一顺序进行。

核心步骤:

1-确认数据的真实有效性,就是这个日活下降的数据是真的,跟产品、技术和其他业务人员沟通是否有进行过影响数据的修改。

2-按照多种指标进行拆分:

按时间序列拆分,查看去年1-12月,今年1-至今,数据趋势是否同去年保持一致,查看该下降是否是季节因素引起的;

按不同渠道拆分,查看用户来源渠道,横向对比,找到影响最大的渠道;

按不同版本拆分,app新版本上线时有可能出现bug,以前遇到过新版本上线后,ios用户在不停的打开退出,最后发现是ios新版本打开白屏问题;

按新老用户拆分,看新增用户减少,还是老用户人数降低;

按不同区域拆分;

按手机型号拆分;

3-计算各自的影响系数,(今日-昨日)/(今日总-昨日总)

4-确定问题点,然后跟产品(功能调整,策略调整)、技术(接口,故障,加载)、运营(策略、push、渠道、推广、活动)、政策(pest)等角度去分析原因。

4、ab测试中的辛普森悖论

辛普森悖论指的是即在某个条件下的两组数据,在分别讨论时都会满足某种性质,可是一旦合并起来进行考虑,却可能导致相反的结论。

某产品的用户中有10000人使用Android设备、5000人使用iOS设备。

其中IOS设备的转化率仅为4%,而Android设备则是5.5%。

细分到手机和平板两部分,手机部分安卓转化率2.5%,苹果转化率为2.9%;平板安卓转化率为6.3%,苹果转化率为6.7%。

产生的原因是两组数据划分的数量和用户特征并不一致。

解决办法:将流量进行科学地分割,保证试验组和对照组的用户特征一致,且都具有全局代表性。

5、ab测试

中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。

α表示原假设为真时, 拒绝原假设的概率。

T检验:首先通过公式计算出统计检验量Z值,公式中的相关组成因素就是:两个版本的各自均值、方差(标准差),以及样本的大小,从而推算出统计量的Z值是多少。

0

然后通过t分布(大样本情况下近似正态分布)的公式计算得出和Z值对应的P值,阴影部分的面积就是P-value的值。

持续观察和检验p值(multiple testing) ,一旦p值小于α判定标准(即统计显著),就停止试验得出结论。事实上,这样的会导致很高的第一类错误发生率。

置信区间 是用来对一个概率样本的总体参数进行区间估计的样本均值范围,它展现了这个均值范围包含总体参数的概率,这个概率称为置信水平。

123

 

  • 6
    点赞
  • 87
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据分析Hadoop面试八股文是指在Hadoop相关岗位的面试中,常见的问题和答案。以下是一些常见的问题与对应的答案,供您参考: 1. 什么是Hadoop? Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。它基于MapReduce编程模型,并使用HDFS(Hadoop分布式文件系统)进行数据存储。 2. Hadoop的核心组件有哪些? Hadoop的核心组件包括: - HDFS:Hadoop分布式文件系统,用于存储大规模数据集。 - MapReduce:一种计算模型,用于将数据分片并行处理。 - YARN:资源调度和管理框架,用于管理集群资源和作业调度。 3. Hadoop的优点是什么? Hadoop具有以下优点: - 高可扩展性:能够处理大规模数据集。 - 容错性:能够自动处理节点故障。 - 成本效益:使用廉价硬件构建的集群。 - 处理多种数据类型:能够处理结构化和非结构化数据。 4. Hadoop的工作原理是什么? Hadoop的工作原理如下: - 数据被切分为多个块,并存储在HDFS中。 - MapReduce程序将数据切片并并行处理。 - 结果被汇总和返回给应用程序。 5. 如何保证Hadoop集群的高可用性? 为保证Hadoop集群的高可用性,可以使用以下方法: - 使用Hadoop的高可用性模式(HA模式),通过配置多个NameNode来实现自动故障切换。 - 使用数据冗余(数据复制)来提高数据的可靠性。 以上是一些常见的Hadoop面试问题,希望对您有所帮助。请根据实际情况进行准备,并结合自己的经验进行回答。祝您面试顺利!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值