机器学习期末考试题库【最全考试题库】

        本文有特别详细的机器学习这门课期末考试会考到的相关的概念,并配有相关的习题,大家把这一块学明白了,考试可以有很大的助力,喜欢的朋友点一下关注吧,持续关注我,我会后面陆续更新更多的资源哟~(づ ̄3 ̄)づ╭❤~

两天疯狂的用心整理(o(╥﹏╥)o),请大数据将我推向更多需要的朋友们吧!!!!!

目录

        本文有特别详细的模式识别这门课期末考试会考到的相关的概念,并配有相关的习题,大家把这一块学明白了,考试可以有很大的助力,喜欢的朋友点一下关注吧,持续关注我,我会后面陆续更新更多的资源哟~(づ ̄3 ̄)づ╭❤~

第一部分  问题

第二部分  答案


第一部分  问题

2.哪些机器学习算法不需要做归一化处理?

6.请简要说说一个完整机器学习项目的流程?

10.LR 和 SVM 的区别和联系?

24.请问(决策树.Random Forest.Boosting.Adaboot)GBDT 和XGBoost 的区别是什么?

25.说说常见的损失函数?

31.线性分类器与非线性分类器的区别以及优劣?

32.L2.L1 的区别?

36.具体 Google 是怎么利用贝叶斯方法,实现"拼写检查"的功能?

39.请详细说说 EM 算法?

42.机器学习中,为何要经常对数据做归一化?

49.随机森林如何评估特征重要性?

50.请说说 Kmeans 的优化?

51.KMeans 初始类簇中心点的选取。

52.解释对偶的概念。

53.如何进行特征选择?

54.衡量分类器的好坏?

56.数据预处理。

58.什麽造成梯度消失问题?

59.到底什么是特征工程?

60.你知道有哪些数据处理和特征工程的处理?

62.数据不平衡问题

63.特征比数据量还大时,选择什么样的分类器?

64.常见的分类算法有哪些?他们各自的优缺点是什么?

65.常见的监督学习算法有哪些?

66.说说常见的优化算法及其优缺点?

67.特征向量的归一化方法有哪些?

68.RF 与GBDT 之间的区别与联系?

69.证明样本空间任一点到超平面的距离公式

70.请比较下 EM 算法、HMM、CRF

71.带核的 SVM 为什么能分类非线性问题?

72.请说说常用核函数及核函数的条件

73.请具体说说 Boosting 和 Bagging 的区别

74.逻辑回归相关问题

75.什么是共线性, 跟过拟合有什么关联?

77.用贝叶斯机率说明 Dropout 的原理

78.对于维度极低的特征,选择线性还是非线性分类器?

79.请问怎么处理特征向量的缺失值

80.SVM、LR、决策树的对比。

81.什么是 ill-condition 病态问题?

82.简述 KNN 最近邻分类算法的过程?

83.常用的聚类划分方式有哪些?列举代表算法。

84.什么是偏差与方差?

85.解决 bias 和Variance 问题的方法是什么?

86.采用 EM 算法求解的模型有哪些,为什么不用牛顿法或梯度下降法?

87.xgboost 怎么给特征评分?

88.什么是 OOB?随机森林中OOB 是如何计算的,它有什么优缺点?

89.推导朴素贝叶斯分类 P(c|d),文档 d(由若干 word 组成),求该文档属于类别 c 的概率, 并说明公式中哪些概率可以利用训练集计算得到

91.请写出你对 VC 维的理解和认识

92.kmeans 聚类中,如何确定k 的大小

94.怎么理解“机器学习的各种模型与他们各自的损失函数一一对应?”

95.给你一个有 1000 列和 1 百万行的训练数据集。这个数据集是基于分类问题的。

经理要求你来降低该数据集的维度以减少模型计算时间。你的机器内存有限。你会怎么做?

96.在 PCA 中有必要做旋转变换吗?如果有必要,为什么?如果你没有旋转变换那些成分,会发生什么情况?

97.  给你一个数据集,这个数据集有缺失值,且这些缺失值分布在离中值有 1 个标准偏差的范围内。百分之多少的数据不会受到影响?为什么?

98.  给你一个癌症检测的数据集。你已经建好了分类模型,取得了 96%的精度。为什么你还是不满意你的模型性能?你可以做些什么呢?

99.解释朴素贝叶斯算法里面的先验概率、似然估计和边际似然估计?

100.你正在一个时间序列数据集上工作。经理要求你建立一个高精度的模型。你开始用决策树算法,因为你知道它在所有类型数据上的表现都不错。后来,你尝试了时间序列回归模型,并得到了比决策树模型更高的精度。这种情况会发生吗?为什么?

101.  给你分配了一个新的项目,是关于帮助食品配送公司节省更多的钱。问题是,公司的送餐队伍没办法准时送餐。结果就是他们的客户很不高兴。最后为了使客户高兴,他们只好以免餐费了事。哪个机器学习算法能拯救他们?

102.你意识到你的模型受到低偏差和高方差问题的困扰。应该使用哪种算法来解决问题呢?为什么?

103.给你一个数据集。该数据集包含很多变量,你知道其中一些是高度相关的。

107.KNN 和KMEANS 聚类有什么不同?

112.是否有可能捕获连续变量和分类变量之间的相关性?如果可以的话,怎样做?

113.Gradient boosting 算法(GBM)和随机森林都是基于树的算法,它们有什么区别?

114.  运行二元分类树算法很容易,但是你知道一个树是如何做分割的吗,即树如何决定把哪些变量分到哪个根节点和后续节点上?

115.  你已经建了一个有 10000 棵树的随机森林模型。在得到 0.00 的训练误差后,你非常高兴。验证错误是 34.23。到底是怎么回事?你还没有训练好你的模型吗?

116.  你有一个数据集,变量个数 p 大于观察值个数n。为什么用最小二乘法OLS 是一个不好的选择?用什么技术最好?为什么?

117.什么是凸包?(提示:想一想 SVM)。

118.我们知道,一位有效编码会增加数据集的维度。但是,标签编码不会。为什么?

119.你会在时间序列数据集上使用什么交叉验证技术?是用 k 倍或 LOOCV?

120.  给你一个缺失值多于 30%的数据集?比方说,在 50 个变量中,有 8 个变量的缺失值都多于 30%。你对此如何处理?

121.“买了这个的客户,也买了......”亚马逊的建议是哪种算法的结果?

122.你怎么理解第一类和第二类错误?

123.  当你在解决一个分类问题时,出于验证的目的,你已经将训练集随机抽样地分成训练集和验证集。你对你的模型能在未看见的数据上有好的表现非常有信心,因为你的验证精度高。但是,在得到很差的精度后,你大失所望。什么地方出了错?

124.请简单阐述下决策树.回归.SVM.神经网络等算法各自的优缺点?

133.机器学习中的 L0.L1 与 L2 范数到底是什么意思?

144.线性回归要求因变量服从正态分布?

第二部分  答案

  • 23
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
机器学习期末考试是对学生在这门课程中所学的机器学习知识进行测试的重要环节。CSDN是中国最大的IT技术社区,提供丰富的学习资源和交流平台。机器学习期末考试CSDN的意思是利用CSDN提供的学习资源来备考机器学习期末考试。 首先,通过CSDN我们可以获取到大量的机器学习学习资料,包括教材、教程、案例分析等。这些资料可以帮助我们巩固机器学习的理论知识,理解各种算法的原理和应用场景。 其次,CSDN还有很多机器学习的学习社区和论坛,可以与其他学习者进行交流和讨论。通过与其他学生的互动交流,可以加深对机器学习知识的理解和应用能力。 另外,CSDN还有一些机器学习的相关项目和竞赛,我们可以参与其中,提升自己的实际操作能力。通过参与项目和竞赛,我们可以将理论知识运用到实际场景中,培养解决问题的能力。 最后,在备考阶段,我们可以利用CSDN上的机器学习博客和文章进行复习和巩固。这些博客和文章通常都是由行业内的专家和从业者撰写的,他们的经验和观点对于我们备考机器学习期末考试肯定是有很大帮助的。 综上所述,CSDN为我们备考机器学习期末考试提供了丰富的学习资料和交流机会。我们可以通过CSDN获取到各种机器学习的理论知识和实践经验,提高自己的学习能力和解决问题的能力,从而更好地备考机器学习期末考试

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小羊一定要努力变强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值