机器学习要点总结

1、哪些机器学习算法不需要做 归一化处理?

归一化处理能够:1)加速梯度下降算法的收敛;2)提高算法精确度(KNN:归一化后,求点对欧几里得距离,可以防止其仅依赖与value较大的特征,而忽略value较小的特征);3)防止特征值较大的特征所占权重 高于 其实际的作用,如linear regression,如果某一feature的值过大,则其权重势必很大,但是此时权重大小与该feature的重要度并不一定成正比。
标准化:均值为0,方差为1:(normalization) = (x-mean)/std
归一化:把特征值缩放到相同的数值范围内,如:[0,1]。1) (x-min)/(max-min);2)x/sum(|x|);3)x/sum(|x|2)
凡涉及 梯度下降算法的 ML 都需要做归一化处理,如:LogisticRegression,神经网络,KNN,SVM,linear regression,AdaBoost,KMeans;
树模型不需要做归一化处理,如:随机森林,决策树;

机器学习中,为何要经常对数据做归一化?
标准化与归一化的区别???
特征向量的归一化方法有哪些?

2、从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

***什么是K近邻算法和KD树?

3、一个完整机器学习项目的流程

筛选显著特征,摈弃非显著特征:互信息条件熵卡方检验
文本分类学习 (四)
特征选择之卡方检验

在应用机器学习算法之前纠正和清理数据的步骤是什么?

4、逻辑斯特回归为什么要对特征进行离散化。
5、logistic regression的并行计算

求解算法:梯度下降算法、牛顿法、拟牛顿法
请用Python实现下线性回归,并思考下更高效的实现方式

6、overfitting解决方案

防止模型过拟合的方法
BatchNormalization、LayerNormalization、InstanceNorm、GroupNorm、SwitchableNorm
如何理解模型的过拟合与欠拟合,以及如何解决?

8、信息熵:一个系统越是有序,熵越低,越是无序,熵越高。H(X) = -sum(P(X)logP(X))

熵、联合熵、条件熵、相对熵、互信息的定义

9、牛顿法和梯度下降法有什么不同?
10、说说你知道的核函数
11、拟牛顿法
13、梯度下降算法

***???化算法:动量法(Momentum)、Adam、NAG、Adagrad、Adadelta、Rmsprop
梯度下降法找到的一定时下降最快的方向吗
什么造成梯度消失?
梯度爆炸???(看一下deeplearning.ai)
说说常见的优化算法及其优缺点?

14、***共轭梯度法
15、***最大熵模型 and EM算法

请详细说说EM算法
???最大熵模型中的数学推导

16、***XGBoost,GBoostAdaBoost,GBDT(一阶导 + CART???),Bagging(有放回抽样,构建多个弱分类器,投票表决)

***为什么xgboost要用泰勒展开,优势在哪里
观察增益gain, alpha(L1 regulation),lambda(L2 regulation)和gamma(叶子节点数)越大,增益越小?
请具体说说Boosting和Bagging的区别
???xgboost中怎么给特征评分。
了解xgboost么,请详细说说它的原理
请详细说说梯度提升树(GBDT)的原理
请说说Adaboost 算法的原理与推导
***XGBoost参数调优
???如何通俗理解LightGBM

17、***各种决策树 ID3 / C4.5 / CART

请详细说说决策树的构造原理

18、***RandomForest(每次DecisionTree的构建用部分特征)

随机森林如何处理缺失值?
随机森林如何评估特征重要性?
RF与GBDT之间的区别与联系?
什么是OOB?随机森林中OOB是如何计算的,它有什么优缺点?

19、常见的损失函数
20、协方差与相关性
21、谈谈判别模型 和 生成模型

限制玻尔兹曼机???

22、L1,L2服从什么分布
23、***PLSA 和 LDA

对比PLAS 和 LDA的区别

24、KNN中K值的选取:

K过小,则bias减小,variance增大,相当于模型复杂度升高;
K过大,则variance减小,bias增大,相当于模型复杂度降低;
k值的选取可以通过cross variance来确定;
简述KNN过程。

25、怎么理解决策树、xgboost能处理缺失值?而有的模型(svm)对缺失值比较敏感。
26、请说说Kmeans的优化?

???常用的聚类划分方式有哪些?列举代表算法。
KMeans初始类簇中心点的选取。
kmeans的复杂度?
k-means聚类中,如何确定K的大小

28、衡量分类器的好坏?

评价模型的常用方法——精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?
精确率 和 召回率 随着样本正负类别数,value变化很大,且,在prediction时,对于阈值的定义不同,精确率也会有很大变动,所以,用这两个指标评估模型效果,不太好。
精确率,召回率,F1值 ,可以评估 设定阈值的优劣。
AUC对样本类别是否均衡并不敏感,这也是不均衡样本通常用AUC评价分类器性能的一个原因。可以直接使用AUC作为目标函数来训练分类器。
机器学习和统计里面的auc的物理意义是啥?(根据AUC破解样本的真实label!!!
精确度,召回率,真阳性,假阳性
ROC曲线 / PR曲线的画法???

30、到底什么是特征工程?

第五课:机器学习中的特征工程
机器学习中,有哪些特征选择的工程方法?
连续特征,既可以离散化,也可以做幅度缩放,那这两种处理方式分别适用于什么场景呢?

如何进行特征选择?

1)去除方差最小的feature;
2)embedding(L1正则化)
3)信息增益(决策树)
4)wrapper(利用目标函数来衡量特征子集的优劣)
5)KL距离: p(y)log[p(y)/p(x)];(不同类别下p(x|y)概率分布是否相同)
6)互信息:p(x,y)log[p(x,y)/p(x)p(y)]
7)Relief(j) :类内距离/类间距离
《Statistical Pattern Recognition》chapter 10: Feature Selection and Extraction

数据预处理

数据不平衡问题 解决方法:
采样
数据生成
对目标函数进行加权处理
改变评价标准:AUC ROC
采用Bagging,Boosting,Ensemble等方法

机器学习/数据挖掘中如何处理缺失值

31、***准备机器学习面试应该了解哪些理论知识?

33、特征比数据量还大时,选择什么样的分类器?
34、常见的分类算法有哪些?他们各自的优缺点是什么?

请简单阐述下决策树、回归、SVM、神经网络等算法各自的优缺点?

35、***EMHMMCRF
36、带核的SVM为什么能分类非线性问题?

请说说常用核函数及核函数的条件
SVM、LR、决策树的对比。
LR和SVM的联系与区别
解释对偶的概念。

37、什么是共线性, 跟过拟合有什么关联?
39、什么是ill-condition病态问题?
38、什么是偏差与方差

解决bias和Variance问题的方法是什么?

39、怎么理解“机器学习的各种模型与他们各自的损失函数一一对应?”
40、给你一个有1000列和1百万行的训练数据集。这个数据集是基于分类问题的。经理要求你来降低该数据集的维度以减少模型计算时间。你的机器内存有限。你会怎么做?(你可以自由做各种实际操作假设)

下采样
PAC
特征选择:类别特征(卡方检验),数值特征(Relief(j),互信息,KL距离,相关系数???)
SGD
根据业务理解,去除不必要特征
利用在线学习算法:VowpalWabbit
关闭其他不必要的程序,节省空间

41、问2:在PCA中有必要做旋转变换吗?

主成分分析PCA
如何通俗易懂的理解PCA
PCA可以结合SVD预测矩阵中的缺失值;
kernel-PCA可以解决非线性转化;
ICA
LDA

42、???给你一个数据集,这个数据集有缺失值,且这些缺失值分布在离中值有1个标准偏差的范围内。百分之多少的数据不会受到影响?为什么?
43、给你一个癌症检测的数据集。你已经建好了分类模型,取得了96%的精度。为什么你还是不满意你的模型性能?你可以做些什么呢?

采样 or SMOTE
AUC作为评估标准
目标函数 分类权重调整
异常检测

44、解释朴素贝叶斯算法里面的先验概率、似然估计和边际似然估计?

???如何通俗理解贝叶斯方法和贝叶斯网络?

45、你建了一个多元回归模型。你的模型R2为并不如你设想的好。为了改进,你去掉截距项,模型R的平方从0.3变为0.8。这是否可能?怎样才能达到这个结果?
46、在分析了你的模型后,经理告诉你,你的模型有多重共线性。你会如何验证他说的是真的?在不丢失任何信息的情况下,你还能建立一个更好的模型吗?

利用相关矩阵 或者 VIF 评估相关性(VIF<=4,没有相关;VIF>=10,相关)
利用 岭回归、lasso回归,作为ML model

47、是否有可能捕获连续变量和分类变量之间的相关性?如果可以的话,怎样做?

是的,我们可以用ANCOVA(协方差分析)技术来捕获连续型变量和分类变量之间的相关性。

48、???什么是凸包?(提示:想一想SVM)其他方法还包括子集回归、前向逐步回归。
49、你会在时间序列数据集上使用什么交叉验证技术?是用k倍或LOOCV?
50、当你在解决一个分类问题时,出于验证的目的,你已经将训练集随机抽样地分成训练集和验证集。你对你的模型能在未看见的数据上有好的表现非常有信心,因为你的验证精度高。但是,在得到很差的精度后,你大失所望。什么地方出了错?
51、请详细说说文字特征提取
52、请详细说说图像特征提取

兴趣点提取: SIFT , SURF

53、机器学习中的L0、L1与L2范数到底是什么意思?
54、???怎么确定LDA的topic个数

语言模型的评估-困惑度

55、???从几何角度解释为什么拉格朗日乘子法能取得最优值?
56、A/B测试的数学原理与深入理解

z检验 适用于 big data;t检验 适用于 small data;
A/B测试(z-test);多臂赌博机;贝叶斯赌博机;

57、线性回归要求因变量服从正态分布?

在用线性回归模型拟合数据之前,首先要求数据应符合或近似符合正态分布,否则得到的拟合函数不正确。
若本身样本不符合正态分布或不近似服从正态分布,则要采用其他的拟合方法,比如对于服从二项式分布的样本数据,可以采用logistics线性回归。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sarah ฅʕ•̫͡•ʔฅ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值