机器学习面试常考点

Table of Contents

各类激活函数的比较

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iY1E6kGS-1642830845125)(/assets/img/post_img/6.png)]

取值范围:(0,1),(-1,1),[0,inf]

能根据输出的值判断使用的激活函数

对数几率回归(logistics regression)和一般回归分析有什么区别?:
A. 对数几率回归是设计用来预测事件可能性的
B. 对数几率回归可以用来度量模型拟合程度
C. 对数几率回归可以用来估计回归系数
D. 以上所有
答案:D

召回率、准确率、精确率

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lReO0SSI-1642830845137)(/assets/img/post_img/7.png)]

准确率(Accuracy)

准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN)

缺点:结果偏向样本数量大的样本,不适用于糖尿病等疾病的监测(由于正常人占比远远大于患糖尿病等疾病的人,因此当模型的准确率很高的时候,并不能相信该模型是优秀的,因为这高准确率主要由TN来决定来,但在这种情况下,我们更关注TP尽可能大)

精确率(Precision)

精确率(precision) = TP/(TP+FP)

缺点:只关心正样本的准确率

召回率(Recall)

召回率(recall) = TP/(TP+FN)

适用于“犯罪监测”,此时关心被误判数量仅可能小,也就是FN尽可能小,TP尽可能大

假设我们要解决一个二类分类问题, 我们已经建立好了模型, 输出是0或1, 初始时设阈值为0.5, 超过0.5概率估计, 就判别为1, 否则就判别为0 ; 如果我们现在用另一个大于0.5的阈值, 那么现在关于模型说法, 正确的是 :
A. 模型分类的召回率会降低或不变
B. 模型分类的召回率会升高
C. 模型分类准确率会升高或不变
D. 模型分类准确率会降低
答案: AC

the true positive rate will stay the same if we keep increasing the cutoff from 0.5 to 0.75, since the all real positive samples can still be predicted to the positive samples, and the true positive rate only rely on the number of real positive sample.

训练误差和测试误差

随着训练样本的增多,平均训练误差会逐渐增大,平均测试误差会逐渐减小。由于训练数据增多,使得原先拟合模型效果变差,因此训练误差变差,但随着训练数据的增多,最终使得整体拟合效果更好,则测试误差会越小,因此训练误差和测试误差之间的差距就会减小。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YJRA8apM-1642830845139)(/assets/img/post_img/8.png)]

过拟合和欠拟合

过拟合

  • 在训练集上的表现好,但在测试集上的表现能力差。
  • 模型偏差为0,方差大
  • 泛化能力差

欠拟合

  • 对训练样本的一般性质尚未学好
  • 模型偏差大,方差为0

产生过拟合的原因

  1. 模型过于复杂
    • 特征过多
    • 神经元过多
    • 核函数选择的过于复杂
  2. 训练数据量太少

产生欠拟合的原因

  1. 模型过于简单
  2. 训练数据量过多

过拟合的解决办法

  1. 增加数据量
  2. 降低模型的复杂度
  3. 添加正则化项
  4. 如果有正则项,则适当增大正则化系数
  5. 集成学习的方法
  6. 特征降维
  7. 交叉验证

欠拟合的解决办法

  1. 添加新特征,如在决策树学习中扩展分支,在神经网络学习中增加训练次数
  2. 增加模型的复杂度,尝试使用核SVM,DNN,决策树
  3. 如果有正则项,减少正则化系数

用来划分样本的方法

  1. 随机设置比例
  2. 交叉验证
  3. 自助采样:适用于数据集较小,集成学习
  4. 留出法

算法是否需要调参

需要进行调参的算法

  1. 神经网络
  2. SVM
  3. 岭回归
  4. LASSO
  5. 加权线性回归
  6. LR
  7. K-Means
  8. AdaBoost
  9. GMM

不需要进行调参的算法

  1. 决策树
  2. LDA
  3. NB
  4. 线性回归

算法是否需要迭代

需要经过多次迭代的算法

  1. LR
  2. 决策树
  3. 神经网络
  4. 聚类
  5. AdaBoost
  6. SVM

不需要经过多次迭代的算法

  1. LDA
  2. 线性回归
  3. NB

算法是否需要归一化处理

需要进行归一化的算法

需要进行梯度下降操作的算法

因为当不归一化的时候可能在梯度下降法寻求最优解时,收敛速度很慢迭代次数很多。

e.g.LR,SVM,AdaBoosting,神经网络

需要进行计算距离的算法

因为如果其中一个特征值域范围很大,那么在进行距离计算的时候就主要取决于这一个特征而忽视其他特征。

e.g.KNN,K-Means,LDA

不需要进行归一化的算法

树形结构的算法

由于树形结构寻找最优解的时候采用的不是梯度下降(因为树形结构模型是分段的一般不可导),而是通过寻找最优分裂点

e.g.决策树,随机森林,XGBoost,Boosting Tree,GBDT

概率模型

高斯混合模型(GMM),朴素贝叶斯,LR

逻辑斯蒂回归和线性回归的区别

①逻辑斯蒂回归解决的是分类问题,而线性回归解决的则是预测问题。逻辑斯蒂回归将实例x划分到条件概率最大的那一类。
②逻辑斯蒂回归的因变量是离散的,而线性回归得因变量是连续的,逻辑斯蒂回归可以看成是对数几率的线性回归。
③逻辑斯蒂回归参数求解的过程中,使用到了极大似然估计而线性回归则使用最小二乘法。二者在求解时均用到了梯度下降的方法。

生成模型和判别模型

  1. 生成式模型估计它们的联合概率分布P(x,y)
  2. 判别式模型估计决策函数F(X)或后验概率分布P(y|x)

生成模型

  1. GMM

  2. 朴素贝叶斯

  3. HMM(隐马尔可夫模型)

判别模型

  1. SVM
  2. LDA
  3. 神经网络
  4. 线性回归
  5. 。逻辑回归
  6. 决策树
  7. Boosting

参数模型和非参数模型

参数模型

  1. 逻辑回归
  2. 线性成分分析
  3. 感知机
  4. 线性判别分析(LDA)
  5. 朴素贝叶斯
  6. K-Means

非参数模型

  1. 决策树
  2. KNN
  3. 支持向量机
  4. 神经网络

线性分类器和非线性分类器

线性分类器

LR,贝叶斯分类,单层感知机,线性回归,SVM(线性核),LDA,朴素贝叶斯,

非线性分类器

决策树、多层感知机(神经网络),KNN,SVM(非线性核)

根据特征数量与样本数量比选择分类器

  1. 当特征数量很大且与样本数量差不多,选择LR或SVM(线性核)
  2. 当特征数量较小,样本数量一般时,选择SVM(非线性核)
  3. 当特征数量较小而样本数量很多,选择添加特征变为第一种

解决类别不平衡问题

  1. 直接对训练集中占多数的类别样本进行“欠采样”
  2. 对训练集中占少数的类别样本进行“过采样”(如通过对该类数据进行插值),也就是复制多个该类别样本
  3. 阈值移动
  4. 直接基于原数据集进行学习,对预测值进行再缩放处理

异常点敏感度

异常值敏感的算法

线性回归,LR,AdaBoosting,SVM

异常值不敏感的算法

各算法对应的损失函数

  1. 最小二乘法——均方误差
  2. SVM——Hinge Loss
  3. LR——对数损失
  4. AdaBoosting——指数损失函数
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值