无人驾驶之机器学习考试卷

注:本卷为内部用卷,供大家检验学习成果用,如需商业化请私聊我,谢谢!

注:本卷可结合博文的考纲使用

一、 填空题(46分,定义,作用2分,其他1分)(m为分隔符)
1.机器学习的定义是___________________________________________________________。
2.假设空间和函数空间的区别是_________________________________________________________。
3.没有免费午餐定理的定义是_________________________________________________,
成立条件是______________________________________________________________________。
4.我们常把数据集划分为________, 训练集和 __________
5.训练的采样方法常用________m________及留出法 。
6.比较检验的目的是______________________________________。
7.线性回归中均方误差的定义式为_______________________,sigmoid函数定义式为______________,它的作用是_______________________________________________。
8.多分类时常见的拆分策略有________,OvR____________ECOC属于前述___________________。
9.常见的决策树有_____________m_____________m________________。
10.神经网络中RBF核的定义式为___________________________。
11.SVM中高斯核的定义式为_____________________________。
12.Kmeans常用的两种距离计算式为_______m________,度量学习中马氏距离的计算式为_______________________。
13.低纬嵌入的定义是___________________________________________________________。
14.L1正则化和L2正则化的区别是_____________________________________________。
15.VC维的定义是______________________________________________________________,
与Rademacher复杂度的区别是________________________________________________。
16.PAC可学习的条件是_________________________________________________________。
17.集成学习的分类有_________m________m _______
哪种是考虑把错误的样本尽可能放到新学习器去训练的方法?___________
18.影响集成学习算法性能的因素有____________________m_____________________。
二、简答题(18分)
1.简述LDA与PCA的基本思想及区别。(4分)

2.简述Kmeans,DBSCAN,GMM,层次聚类的原理及区别。(8分)

3.简述如何用EM算法统计学校男女身高分布,(采样数据缺少性别数据,只有身高数据)。(6分)

三、计算题(44分)
1.SVM是前几年非常火的方法,由于当时商业的需要还发展出了核方法,我们在使用时,分类用SVC,回归用SVR,虽然不如深度网络准确,但仍是非常有价值的方法,由于前人对其细节的深入描述在某些方面的性能甚至超过DNN。(24分)
(1)试推导SVM(非软间隔情况)。(10分)
(2)考虑软间隔情况,C的意义是什么,对分类结果有何影响?(4分)
(3)简述SMO的基本思想。(5分)
(4)简述SVR的基本思想,他与线性分类器有何区别?(5分)
2.已知数据集如下:(20分)

(1) 用ID3求其决策树,(不考虑密度和含糖率)并说明如何去剪枝。(10分)
ssd
(2) 用朴素贝叶斯分类器给出如下测试样例的结果:(10分)
ff
四、综合题(42分)
1.kaggle竞赛是大数据机器学习领域一个权威的比赛平台,现在要求你参加一次kaggle泰坦尼克号的分类竞赛,其样本分布如下,survived就是分类中Y值。
ss
具体说明如下
ss
(1) 描述你参加该竞赛所需要做的基本步骤(包括用什么集成学习算法,其步骤是什么,怎样处理数据,如何投票)(15分)
(2) 开始时我们常面对很多缺失值和正例反例数量的不平衡,如何解决上述两个问题?(6分)
(3)训练时我们常用到kfold,以该数据集为例简述如何使用kfold训练。(6分)
(4) 训练之后常存在过拟合与欠拟合,请给出它们的定义及解决方法。(6分)
(5) 假设你已经完成了整个架构的搭建,如何通过特征工程及数据清洗提升分类的测试集准确率?(9分)

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值