数据分析师面试题目_拼多多面经分享：24个「数据分析师」岗位面试题和答案解析...

最新推荐文章于 2024-08-14 09:14:54 发布

曲水流觞不醉人

最新推荐文章于 2024-08-14 09:14:54 发布

阅读量4.3k

点赞数

文章标签：数据分析师面试题目

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35853083/article/details/112022230

版权

本文汇总了拼多多数据分析师面试的24道题目，涵盖贝叶斯公式、SQL查询（中位数、平均数、众数）、决策树避免过拟合、朴素贝叶斯理解、SVM优点、KMeans原理、SQL技巧、业务场景分析、需求处理思路、Hadoop与MapReduce原理等。通过对这些知识点的解答，展示了数据分析师所需的关键技能和思考方式。

摘要由CSDN通过智能技术生成

01

问：贝叶斯公式复述并解释应用场景

P(A|B) = P(B|A)*P(A) / P(B)

如搜索query纠错，设A为正确的词，B为输入的词，那么：P(A|B)表示输入词B实际为A的概率

P(B|A)表示词A错输为B的概率，可以根据AB的相似度计算(如编辑距离)

P(A)是词A出现的频率，统计获得

P(B)对于所有候选的A都一样，所以可以省去

02

问：如何写SQL求出中位数平均数和众数(除了用count之外的方法)

1. 中位数方案1(没考虑到偶数个数的情况)：

1 set @m = (select count(*)/2 from table)

2 select column from table order by column limit @m, 1方案2(考虑偶数个数，中位数是中间两个数的平均)：

1 set @index = -1

2 select avg(table.column)

3 from

4 (select @index:=@index+1 as index, column

5 from table order by column) as t

6 where t.index in (floor(@index/2),ceiling(@index/2))

2. 平均数

1 select avg(distinct column) from table

3. 众数

1 select column, count(*) from table group by column order by column desc l

03

问：如何避免决策树过拟合限制树深

剪枝

限制叶节点数量

正则化项

增加数据

bagging(subsample、subfeature、低维空间投影)

数据增强(加入有杂质的数据)

早停

04

问：朴素贝叶斯的理解理解：朴素贝叶斯是在已知一些先验概率的情况下，由果索因的一种方法

其它：朴素的意思是假设了事件相互独立

05

问：SVM的优点

优点：能应用于非线性可分的情况

最后分类时由支持向量决定，复杂度取决于支持向量的数目而不是样本空间的维度，避免了维度灾难

具有鲁棒性：因为只使用少量支持向量，抓住关键样本，剔除冗余样本

高维低样本下性能好，如文本分类

缺点：模型训练复杂度高

难以适应多分类问题

核函数选择没有较好的方法论

06

问：Kmeans的原理初始化k个点

根据距离点归入k个类中

更新k个类的类中心

重复②③，直到收敛或达到迭代次数

07

问：口答一个SQL题(要用到row number)

mysql中设置row number：

1 SET @row_number = 0; SELECT (@row_number:=@row_number + 1) AS num FROM table

08

问：业务场景题，如何分析次日留存率下降的问题

业务问题关键是问对问题&

最低0.47元/天解锁文章

曲水流觞不醉人

关注

0
点赞
踩
40

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。