机器学习篇
1、Xgboost
2、类别特征,数值特征的处理
3、损失函数
4、ROC、PR的区别,什么时候选择PR,什么时候选择ROC
5、对朴素贝叶斯的理解?
A:朴素贝叶斯算法是一种基于贝叶斯定理的分类技术。朴素贝叶斯中的朴素是指假设各个特征之间相互独立,不会互相影响,所以称为朴素贝叶斯(条件独立性)。贝叶斯定理是基于假设的先验概率、给定假设下观察到不同数据的概率,提供了一种计算后验概率的方法
6、特征分割
7、决策树优点,缺点,如何规避
8、Dropout的作用
9、 随机森林为什么随机
10、 rf和GBDT系列模型的区别
11、有监督的模型会哪一些?LR怎么判断性能
12、决策树,RF,XGBDT,为什么GBDT精度比决策树
13、特征工程
特征抽取/提取:将任意数据(文本、图像等)转化为可以用作机器学习的数字特征。文本类型–>数值型;分类型数据(字符串)–>数值型;
特征预处理
特征降维
数据探索
数据集的划分
14、假设检验中影响统计功效的有哪些变量?
15、正则化的统计理论依据是什么?
16、极大似然估计和最大后验概率估计的关系是什么?
17、数据不平衡时能否用AUC作为评估指标?
18、能否直接用AUC评价SVM的性能?
19、机器学习模型 - gboost,random forest的区别
20、random forest - 是什么东西进行随机 (样本和特征节点)
21. 线性回归模型和LR的区别(回归和分类的区别)
python 篇
1、if name == ‘main’:
https://www.zhihu.com/question/49136398/answer/1654722335
2、Python数组逆序输出
3、NC2 重排链表
4、NC7 买卖股票的最佳时机
5、NC88 寻找第K大
6、python 的数据复制:深复制和浅复制
7、map函数
8、pandas-插补法,
平均数,中位数,众数,KNN插补,贝叶斯岭
9、KNN和K-means的区别
10、k-means算法的步骤
11、MySQL 求中位数,众数
12、已知表:ks_test.201903_daily_user_city_list为3月每一天的活跃用户表,格式为:
date user_id city_name
20190301 10001 北京
请输出3.01~3.30每天留存率最高的五个城市以及各自对应的用户数和次日留存率
sql 篇
1、sql索引:
https://mp.weixin.qq.com/s/nU-X6GWr3XZzSUDnMex3cQ
MySQL中索引的存储类型有两种:BTREE和HASH,具体和表的存储引擎相关;
MyISAM和InnoDB存储引擎只支持BTREE索引,MEMORY/HEAP存储引擎可以支持HASH和BTREE索引。
2、索引涉及与优化
创建索引的原则
查询的结果集<总行数的25%:超过了总数行数25%,优化器觉得就没有必要走索引了。
越小的数据类型通常更好:越小的数据类型通常在磁盘、内存和CPU缓存中都需要更少的空间,处理起来更快。
简单的数据类型更好