【面试相关】数据分析面试前必看知识点Q&A③

本文详述了数据分析面试的关键知识点,涵盖了机器学习、Python、SQL及统计学四大领域。讨论了Xgboost、朴素贝叶斯、特征工程、Python基础知识、SQL索引与优化、统计学概念及业务分析问题。通过深入探讨各类问题,帮助求职者准备数据分析职位的面试。
摘要由CSDN通过智能技术生成

机器学习篇

在这里插入图片描述

1、Xgboost
2、类别特征,数值特征的处理
3、损失函数
4、ROC、PR的区别,什么时候选择PR,什么时候选择ROC
5、对朴素贝叶斯的理解?

A:朴素贝叶斯算法是一种基于贝叶斯定理的分类技术。朴素贝叶斯中的朴素是指假设各个特征之间相互独立,不会互相影响,所以称为朴素贝叶斯(条件独立性)。贝叶斯定理是基于假设的先验概率、给定假设下观察到不同数据的概率,提供了一种计算后验概率的方法

6、特征分割
7、决策树优点,缺点,如何规避
8、Dropout的作用
9、 随机森林为什么随机
10、 rf和GBDT系列模型的区别
11、有监督的模型会哪一些?LR怎么判断性能
12、决策树,RF,XGBDT,为什么GBDT精度比决策树
13、特征工程

特征抽取/提取:将任意数据(文本、图像等)转化为可以用作机器学习的数字特征。文本类型–>数值型;分类型数据(字符串)–>数值型;
特征预处理
特征降维
数据探索
数据集的划分

14、假设检验中影响统计功效的有哪些变量?
15、正则化的统计理论依据是什么?
16、极大似然估计和最大后验概率估计的关系是什么?
17、数据不平衡时能否用AUC作为评估指标?
18、能否直接用AUC评价SVM的性能?
19、机器学习模型 - gboost,random forest的区别
20、random forest - 是什么东西进行随机 (样本和特征节点)
21. 线性回归模型和LR的区别(回归和分类的区别)

python 篇

1、if name == ‘main’:

https://www.zhihu.com/question/49136398/answer/1654722335

2、Python数组逆序输出
3、NC2 重排链表
4、NC7 买卖股票的最佳时机
5、NC88 寻找第K大
6、python 的数据复制:深复制和浅复制
7、map函数
8、pandas-插补法,

平均数,中位数,众数,KNN插补,贝叶斯岭

9、KNN和K-means的区别
10、k-means算法的步骤
11、MySQL 求中位数,众数
12、已知表:ks_test.201903_daily_user_city_list为3月每一天的活跃用户表,格式为:
date user_id city_name
20190301 10001 北京
请输出3.01~3.30每天留存率最高的五个城市以及各自对应的用户数和次日留存率

sql 篇

1、sql索引:

https://mp.weixin.qq.com/s/nU-X6GWr3XZzSUDnMex3cQ
MySQL中索引的存储类型有两种:BTREE和HASH,具体和表的存储引擎相关;
MyISAM和InnoDB存储引擎只支持BTREE索引,MEMORY/HEAP存储引擎可以支持HASH和BTREE索引。

2、索引涉及与优化

创建索引的原则
查询的结果集<总行数的25%:超过了总数行数25%,优化器觉得就没有必要走索引了。
越小的数据类型通常更好:越小的数据类型通常在磁盘、内存和CPU缓存中都需要更少的空间,处理起来更快。
简单的数据类型更好

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值