华为数据分析面试100题（附答案）

最新推荐文章于 2024-05-24 09:28:09 发布

alafaqi

最新推荐文章于 2024-05-24 09:28:09 发布

阅读量7k

点赞数 39

文章标签：面试数据分析 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/alafaqi/article/details/130635974

版权

这篇文章汇总了6大部分的数据分析面试题目，包括SQL查询技巧、概率论概念、数理统计原理、机器学习算法、Python编程以及AB实验设计。涵盖了从数据处理到模型评估的各种核心知识点，适合准备数据分析职位面试的求职者复习参考。

摘要由CSDN通过智能技术生成

共计6大部分，100道常见数据分析面试题，内含答案

第一部分：SQL

1. sql 如何解决数据倾斜问题?

2. SQL中，having 和 where 的区别有哪些 ?

3. SQL中，union和 join 的区别有哪些 ?

4. SQL 语句中的执行顺序是怎样的?

5.SQL如何实现去重操作 ?

6. SQL中，count(*)、count(字段) 、count(distinct字段 ) 的区别是什么

7.sql 如何将'yyyy-MM-dd' 的日期格式转换为'yyyyMMdd' 形式 ?

8. sql中如何求出两个'yyyyMMdd' 格式的日期差多少天 ?

9. sql 如何将时间戳转换为'yyyy-MM-dd' 格式 ?

10. sql中，if 和 case when 的区别有哪些 ?

11.sql中，如何求字段整体的标准差和均值 ?

12. sql中，什么是笛卡尔积 ? 笛卡尔积一般出现在什么场景下?

13.sql中，rank、dense rank、row number的区别是什么 ?

14. sql中，除了rank以外还有哪些窗口函数 ?

15. 简述一下max() 聚合函数和窗口函数max(A)over(partition by B)的区别

16. 窗口函数和where的执行顺序孰先孰后 ?

17.sql 中正则化函数一般如何使用?

18. sql 中如何将int 类型的字段转换为string 类型 ?

19. sql 中，leftjoin、rightjoin、inner join有什么差别 ?

20. sql如何将类型为float的字段保留两位小数?

第二部分：概率论

21 . 两个人轮流抛硬币，硬币表面均匀，正反面概率均为50%。抛到正面者胜利，假如抛硬币一直抛到有人获胜为止，那么先抛硬币的人获胜的概率是多少?

22. 已知随机变量X 服从指数分布 λ ( 2 ) , 求随机变量X 的数学期望与方差

23. 箱子里有15个球，其中10个红球，5个白球。从中抽5个球，求5个球中有3个以上是白球的概率?

24.X 服从正态分布N(0,2), 已知Y=2X+5, 求随机变量Y 的均值与标准差

25. 甲运动员罚球进球概率为50%,甲运动员罚球10次中，有3次以上进球的概率?

26. 已知随机变量X服从均匀分布U(3,6), 求 P(X>=4)

27. 已知有两个管道工甲和乙，他们其中一人会被指派维修某下水道。甲员工维修成功概率为50%,乙为30%,并且甲和乙被指派的概率分别为70%和30%。求管道会被维修成功的概率

28. 假设某国家没有生育限制，且该国家的夫妻生孩子会直到生到男孩为止，在没有堕胎等情况的假定下，那么该国家在一段时间内生下来的男孩和女孩的比重理论上应该是?

29. 求伯努利分布B(0.5) 的数学期望和方差

30. 已知X和Y分别服从正态分布N(4,2),N(1,3), 在 X和Y相互独立的情况下，求随机变量XY 的均值与标准差

第三部分：数理统计

31. 什么是中心极限定理?

32. 什么是置信区间?

32. 能不能解释下什么是置信度a?

33. 聊一聊双样本t 检验与配对样本t 检验的差别?

34. 解释一下中心极限定理和置信区间的关系?

35. 描述一下假设检验与置信区间的关系?

36. t 检验与z 检验有何差异?

37. 为什么t检验需要进行方差齐次性检验?

38. 聊一聊什么是单因素方差分析 ?

39. F检验的用途有哪些?

40. 描述一下一类错误和二类错误的差异 ?

41. 如何同时缩小一类错误和二类错误 ?

42. 一类错误和二类错误哪个更严重 ?

第四部分：机器学习

45. 线性回归普通最小二乘法运用的经典基本假设有哪些?

46. 多重共线性是什么 ? 如何解决多重共线性问题？

46. 描述一下异方差性是什么，如何克服异方差性?

47. 什么是内生变量问题?如何解决?

48. 简述有监督学习和无监督学习的差异

49. 常用的有监督学习的基础算法有哪些 ?

50. 简述一下参数模型与非参数模型的区别？

51. 逻辑回归模型是分类模型还是回归模型 ?

52. 能否一句话概括一下什么是逻辑回归模型 ?

53. 感知机模型和SVM模型的差别 ?

54. 决策树模型的优缺点 ?

55. 决策树算法计算信息增益的衡量标准有哪些 ?

56. 决策树ID3 、C4.5 、CART三种算法之间有什么区别 ?

57. 决策树如何降低过拟合的程度?

58. 决策树算法在sklearn当中有哪些关键的超参数?

59. 什么是超参数 ? 描述一下KNN 算法的超参数有哪些?

60. bagging 和 boosting 的区别是什么?

61. 简述一下随机森林与xgboost的区别

62. 描述一下xgboost 和GBDT 的关系?

63. 集成学习相比于普通基础算法的优势体现在哪?

64. 如何评价分类模型的优劣?

65.如何评价回归模型的优劣 ?

66.有哪些处理样本不均衡问题的处理方法 ?

67. 为什么会发生过拟合和欠拟合，怎么解决模型的过拟合和欠拟合的问题 ?

68. 解释一下什么是偏差和方差和泛化误差

69. 聚类模型有哪些 ?

70. k-means聚类的k如何确定 ?

71.k-means聚类的优缺点 ?

72.k-means聚类和层次聚类的差异 ?

73.k-means聚类如何更好地规避初始点的选择对模型造成的误差 ?

74. k-means 聚类和DBSCAN 模型的差异和优缺点

75. PCA 是什么 ?

76. 如何确定PCA保留几个主成分 ?

77.PCA一般在什么场景下使用 ?

78. LDA(Linear Discriminant Analysis) 和PCA的差异?

第五部分：Python

79. Python有哪些数据结构

80. python中，元组和集合的区别是 ?

81. python中，for 循环和while循环的区别是 ?

82. python 的pandas 如何实现排序?

83. python 的pandas 如何实现sq| 中的left join?

84. python 的pandas 如何实现sql 中的union?

85. python的 pandas如何计算某列的平均值和中位数 ?

86. python 的pandas中，如何实现类似于sql 中的where 进行限制?

87. python 的pandas 如何实现sql中的group by?

90.python 的pandas 中，如何删除某一列?

第六部分：AB实验

91/92. 解释一下什么是AB 实验 ?

93/94. 有哪些方法可以检验分流的均匀性 ? 什么是AA 实验 ?

95. 如何确定实验最小样本量 ?

96. 如何确定实验周期?

97. AB实验和因果推断的关系?

98. 互斥实验与正交实验的区别?

99. AB 实验的基本假设 ?

100. 什么情况下不能使用随机分流实验进行增效度量 ?

关注

39
点赞
踩
437

收藏

觉得还不错? 一键收藏
4
评论
华为数据分析面试100题（附答案）

28. 假设某国家没有生育限制，且该国家的夫妻生孩子会直到生到男孩为止，在没有堕胎等情况的假定下，那么该国家在一段时间内生下来的男孩和女孩的比重理论上应该是?抛到正面者胜利，假如抛硬币一直抛到有人获胜为止，那么先抛硬币的人获胜的概率是多少?30. 已知X和Y分别服从正态分布N(4,2),N(1,3), 在 X和Y相互独立的情况下，求随机变量XY 的均值与标准差。6. SQL中，count(*)、count(字段) 、count(distinct字段 ) 的区别是什么。
复制链接

扫一扫

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。