无人驾驶之机器学习考试卷

最新推荐文章于 2023-12-31 01:08:25 发布

吴家征

最新推荐文章于 2023-12-31 01:08:25 发布

阅读量734

点赞数 2

分类专栏：机器学习文章标签：机器学习人工智能 kaggle

本文链接：https://blog.csdn.net/qq_38588806/article/details/88119075

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

注：本卷为内部用卷，供大家检验学习成果用，如需商业化请私聊我，谢谢!

注：本卷可结合博文的考纲使用

一、填空题(46分，定义，作用2分，其他1分)(m为分隔符)
1.机器学习的定义是___________________________________________________________。
2.假设空间和函数空间的区别是_________________________________________________________。
3.没有免费午餐定理的定义是_________________________________________________，
成立条件是______________________________________________________________________。
4.我们常把数据集划分为________, 训练集和 __________
5.训练的采样方法常用________m________及留出法。
6.比较检验的目的是______________________________________。
7.线性回归中均方误差的定义式为_______________________，sigmoid函数定义式为______________，它的作用是_______________________________________________。
8.多分类时常见的拆分策略有________,OvR____________ECOC属于前述___________________。
9.常见的决策树有_____________m_____________m________________。
10.神经网络中RBF核的定义式为___________________________。
11.SVM中高斯核的定义式为_____________________________。
12.Kmeans常用的两种距离计算式为_______m________，度量学习中马氏距离的计算式为_______________________。
13.低纬嵌入的定义是___________________________________________________________。
14.L1正则化和L2正则化的区别是_____________________________________________。
15.VC维的定义是______________________________________________________________，
与Rademacher复杂度的区别是________________________________________________。
16.PAC可学习的条件是_________________________________________________________。
17.集成学习的分类有_________m________m _______
哪种是考虑把错误的样本尽可能放到新学习器去训练的方法?___________
18.影响集成学习算法性能的因素有____________________m_____________________。
二、简答题（18分）
1.简述LDA与PCA的基本思想及区别。（4分）

2.简述Kmeans，DBSCAN,GMM,层次聚类的原理及区别。（8分）

3.简述如何用EM算法统计学校男女身高分布，（采样数据缺少性别数据，只有身高数据）。（6分）

三、计算题（44分）
1.SVM是前几年非常火的方法，由于当时商业的需要还发展出了核方法，我们在使用时，分类用SVC,回归用SVR，虽然不如深度网络准确，但仍是非常有价值的方法，由于前人对其细节的深入描述在某些方面的性能甚至超过DNN。（24分）
（1）试推导SVM（非软间隔情况）。（10分）
（2）考虑软间隔情况，C的意义是什么，对分类结果有何影响？（4分）
（3）简述SMO的基本思想。（5分）
（4）简述SVR的基本思想，他与线性分类器有何区别？（5分）
2.已知数据集如下：（20分）

（1）用ID3求其决策树，（不考虑密度和含糖率）并说明如何去剪枝。（10分）
ssd
（2）用朴素贝叶斯分类器给出如下测试样例的结果：（10分）

四、综合题（42分）
1.kaggle竞赛是大数据机器学习领域一个权威的比赛平台，现在要求你参加一次kaggle泰坦尼克号的分类竞赛，其样本分布如下，survived就是分类中Y值。

具体说明如下

（1）描述你参加该竞赛所需要做的基本步骤（包括用什么集成学习算法，其步骤是什么，怎样处理数据，如何投票）（15分）
（2）开始时我们常面对很多缺失值和正例反例数量的不平衡，如何解决上述两个问题？（6分）
（3）训练时我们常用到kfold，以该数据集为例简述如何使用kfold训练。（6分）
（4）训练之后常存在过拟合与欠拟合，请给出它们的定义及解决方法。（6分）
（5）假设你已经完成了整个架构的搭建，如何通过特征工程及数据清洗提升分类的测试集准确率？（9分)

吴家征

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
无人驾驶之机器学习考试卷

注：本卷为内部用卷，供大家检验学习成果用，如需商业化请私聊我，谢谢! 注：本卷可结合博文的考纲使用一、填空题(46分，定义，作用2分，其他1分)(m为分隔符)1.机器学习的定义是___________________________________________________________。2.假设空间和函数空间的区别是______________________________...
复制链接

扫一扫

专栏目录