机器学习 面试题-第三章 验证方式(大厂必问,历经半年整理)

老铁们✌,重要通知🙌!福利来了!!!😉

【计算机视觉 复习流程剖析及面试题详解 】
【深度学习算法 最全面面试题(30 页)】
【机器学习算法 最全面面试题(61页)】

3.验证方式

3.1什么是过拟合?产生过拟合原因?

指模型在训练集上的效果很好,在测试集上的预测效果很差.
1.数据有噪声
2.训练数据不足,有限的训练数据
3.训练模型过度导致模型非常复杂

3.2 如何避免过拟合问题?

在这里插入图片描述

3.3 什么是机器学习的欠拟合?

模型复杂度低或者数据集太小,对模型数据的拟合程度不高,因此模型在训练集上的效果就不好.

3.4 如何避免欠拟合问题?

1.增加样本的数量
2.增加样本特征的个数
3.可以进行特征维度扩展
4.减少正则化参数
5.使用集成学习方法,如Bagging

3.5 什么是交叉验证?交叉验证的作用是什么?

将原始dataset划分为两个部分.一部分为训练集用来训练模型,另外一部分作为测试集测试模型效果.
作用: 1)交叉验证是用来评估模型在新的数据集上的预测效果,也可以一定程度上减小模型的过拟合
2)还可以从有限的数据中获取尽能多的有效信息。

3.6 交叉验证主要有哪几种方法?

①留出法:简单地将原始数据集划分为训练集,验证集,测试集三个部分.
②k折交叉验证:(一般取5折交叉验证或者10折交叉验证)
③LOO留一法: (只留一个样本作为数据的测试集,其余作为训练集)---只适用于较少的数据集
④ Bootstrap方法:(会引入样本偏差)

3.7 什么是K折交叉验证?

将原始数据集划分为k个子集,将其中一个子集作为验证集,其余k-1个子集作为训练集,如此训练和验证一轮称为一次交叉验证。
交叉验证重复k次,每个子集都做一次验证集,得到k个模型,加权平均k个模型的结果作为评估整体模型的依据。

3.8 如何在K折交叉验证中选择K?

k越大,不一定效果越好,而且越大的k会加大训练时间;
在选择k时,需要考虑最小化数据集之间的方差,比如对于2分类任务,采用2折交叉验证,即将原始数据集对半分,若此时训练集中都是A类别,验证集中都是B类别,则交叉验证效果会非常差。

3.9 网格搜索(GridSearchCV)

一种调优方法,在参数列表中进行穷举搜索,对每种情况进行训练,找到最优的参数。已svm调参为例:
在这里插入图片描述在这里插入图片描述

3.10随机搜素(RandomizedSearchCV)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cc13186851239

觉得不错的,鼓励一下我,奥利给

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值