【面试相关】数据分析面试前必看知识点Q&A③

最新推荐文章于 2021-04-14 22:34:45 发布

Mr_charm

最新推荐文章于 2021-04-14 22:34:45 发布

阅读量751

点赞数 1

分类专栏：面试相关文章标签： mysql 机器学习数据分析经验分享面试

本文链接：https://blog.csdn.net/Mr_charm/article/details/111860584

版权

本文详述了数据分析面试的关键知识点，涵盖了机器学习、Python、SQL及统计学四大领域。讨论了Xgboost、朴素贝叶斯、特征工程、Python基础知识、SQL索引与优化、统计学概念及业务分析问题。通过深入探讨各类问题，帮助求职者准备数据分析职位的面试。

摘要由CSDN通过智能技术生成

机器学习篇

在这里插入图片描述

1、Xgboost
2、类别特征，数值特征的处理
3、损失函数
4、ROC、PR的区别，什么时候选择PR，什么时候选择ROC
5、对朴素贝叶斯的理解？

A：朴素贝叶斯算法是一种基于贝叶斯定理的分类技术。朴素贝叶斯中的朴素是指假设各个特征之间相互独立，不会互相影响，所以称为朴素贝叶斯（条件独立性）。贝叶斯定理是基于假设的先验概率、给定假设下观察到不同数据的概率，提供了一种计算后验概率的方法

6、特征分割
7、决策树优点，缺点，如何规避
8、Dropout的作用
9、随机森林为什么随机
10、 rf和GBDT系列模型的区别
11、有监督的模型会哪一些？LR怎么判断性能
12、决策树，RF，XGBDT，为什么GBDT精度比决策树
13、特征工程

特征抽取/提取：将任意数据（文本、图像等）转化为可以用作机器学习的数字特征。文本类型–>数值型；分类型数据(字符串)–>数值型;
特征预处理
特征降维
数据探索
数据集的划分

14、假设检验中影响统计功效的有哪些变量？
15、正则化的统计理论依据是什么？
16、极大似然估计和最大后验概率估计的关系是什么？
17、数据不平衡时能否用AUC作为评估指标？
18、能否直接用AUC评价SVM的性能？
19、机器学习模型 - gboost，random forest的区别
20、random forest - 是什么东西进行随机（样本和特征节点）
21. 线性回归模型和LR的区别（回归和分类的区别）

python 篇

1、if name == ‘main’:

https://www.zhihu.com/question/49136398/answer/1654722335

2、Python数组逆序输出
3、NC2 重排链表
4、NC7 买卖股票的最佳时机
5、NC88 寻找第K大
6、python 的数据复制：深复制和浅复制
7、map函数
8、pandas-插补法，

平均数，中位数，众数，KNN插补，贝叶斯岭

9、KNN和K-means的区别
10、k-means算法的步骤
11、MySQL 求中位数，众数
12、已知表：ks_test.201903_daily_user_city_list为3月每一天的活跃用户表，格式为：
date user_id city_name
20190301 10001 北京
请输出3.01~3.30每天留存率最高的五个城市以及各自对应的用户数和次日留存率

sql 篇

1、sql索引：

https://mp.weixin.qq.com/s/nU-X6GWr3XZzSUDnMex3cQ
MySQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关；
MyISAM和InnoDB存储引擎只支持BTREE索引，MEMORY/HEAP存储引擎可以支持HASH和BTREE索引。

2、索引涉及与优化