文章目录
老铁们✌,重要通知🙌!福利来了!!!😉
【计算机视觉 复习流程剖析及面试题详解 】
【深度学习算法 最全面面试题(30 页)】
【机器学习算法 最全面面试题(61页)】
3.验证方式
3.1什么是过拟合?产生过拟合原因?
指模型在训练集上的效果很好,在测试集上的预测效果很差.
1.数据有噪声
2.训练数据不足,有限的训练数据
3.训练模型过度导致模型非常复杂
3.2 如何避免过拟合问题?
3.3 什么是机器学习的欠拟合?
模型复杂度低或者数据集太小,对模型数据的拟合程度不高,因此模型在训练集上的效果就不好.
3.4 如何避免欠拟合问题?
1.增加样本的数量
2.增加样本特征的个数
3.可以进行特征维度扩展
4.减少正则化参数
5.使用集成学习方法,如Bagging
3.5 什么是交叉验证?交叉验证的作用是什么?
将原始dataset划分为两个部分.一部分为训练集用来训练模型,另外一部分作为测试集测试模型效果.
作用: 1)交叉验证是用来评估模型在新的数据集上的预测效果,也可以一定程度上减小模型的过拟合
2)还可以从有限的数据中获取尽能多的有效信息。
3.6 交叉验证主要有哪几种方法?
①留出法:简单地将原始数据集划分为训练集,验证集,测试集三个部分.
②k折交叉验证:(一般取5折交叉验证或者10折交叉验证)
③LOO留一法: (只留一个样本作为数据的测试集,其余作为训练集)---只适用于较少的数据集
④ Bootstrap方法:(会引入样本偏差)
3.7 什么是K折交叉验证?
将原始数据集划分为k个子集,将其中一个子集作为验证集,其余k-1个子集作为训练集,如此训练和验证一轮称为一次交叉验证。
交叉验证重复k次,每个子集都做一次验证集,得到k个模型,加权平均k个模型的结果作为评估整体模型的依据。
3.8 如何在K折交叉验证中选择K?
k越大,不一定效果越好,而且越大的k会加大训练时间;
在选择k时,需要考虑最小化数据集之间的方差,比如对于2分类任务,采用2折交叉验证,即将原始数据集对半分,若此时训练集中都是A类别,验证集中都是B类别,则交叉验证效果会非常差。
3.9 网格搜索(GridSearchCV)
一种调优方法,在参数列表中进行穷举搜索,对每种情况进行训练,找到最优的参数。已svm调参为例:
3.10随机搜素(RandomizedSearchCV)