数据分析面试、笔试题汇总+解析（四）

最新推荐文章于 2022-07-12 09:43:25 发布

小白掌柜

最新推荐文章于 2022-07-12 09:43:25 发布

阅读量771

点赞数

分类专栏：数据分析面试题汇总机器学习文章标签：机器学习数据分析 python 交叉验证数据集划分

本文链接：https://blog.csdn.net/weixin_41013322/article/details/105437409

版权

机器学习同时被 2 个专栏收录

14 篇文章 4 订阅

订阅专栏

数据分析面试题汇总

6 篇文章 11 订阅

订阅专栏

今天解决最后一道题👉：把数据集随机划分为训练集和测试集，按8：2的比例。（本来应该周六就更新的，因为临时接了朋友一个自动下单程序的需求就耽搁了😂）

一般情况都会用传统定比随机划分（掌柜自己取得名字。。。也有人叫留出法？）法，即使用sklearn库里面的model_selection模块的train_test_split方法。这里掌柜就直接拿官方的鸢尾花数据集示例来演示一下：
在这里插入图片描述

这👆也正是此题的考点。到这里就把之前面试的Python数据分析题全部解答完毕😁。

------------------------------------我是一条无感情的分割线-------------------------------------------

下面掌柜开始拓展一下。上面的随机划分法若后面进行机器学习模型调参的话，就会存在一定的缺点，即测试集上面仍有过拟合情况的发生。 于是掌柜去看官方文档后发现，为了解决这种风险的发生，引入了验证集的方法，即先把训练后的模型放在验证集上面进行评估，若评估实验是成功的，再放入测试集上面进行最后的模型评估。

但是这个方法还是有弊端，因为它减小了模型训练集的样本量，这就会导致最后的结果是依赖子集（验证集、测试集）的随机选择。

所以为了解决这个问题，下面就引出第二种划分数据集的方法-- 交叉验证法👈。那么问题来了，什么是交叉验证？ 通俗的讲就是一种验证分类模型准确率的方法。作用是为了解决数据集不多的情况下的过拟合问题。

在交叉验证法中最基本的就是K折交叉验证法（即 k-fold CV），这里简单说一下K折交叉验证法的过程：

首先把训练集分为K个等份；
接着对每一份子集进行再划分，其中把K-1份当作此份子集的训练集；
而剩余的那份数据则被拿来验证前面训练子集的结果（比如模型的准确率）；
然后经过上面的K次循环，再把得到的K份数据结果求平均。
最后得到的这个均值就可以作为该数据集的性能指标；

后面就是通过该指标和 Grid Search 方法来找到最优参数，再放到测试集上做最后的模型预测和性能评估。

可以看下面这两图更易理解上面的整个过程：
在这里插入图片描述
（上图👆是K折交叉验证图发生的过程）

（此图则是模型训练中的交叉验证流程图👆）

K折交叉验证法的优点：

当样本数据集数量较少（如处理逆向推断问题时）是一个极大的优势，因为数据不会被浪费很多（正如它固定了任意验证集）；
在一定程度上减少了过拟合。

缺点：

此方法计算成本很大，即费时！所以数据量很大的时候并不会常用此方法。

那么K折交叉验证法适用场景也在👆的优点里面，通常K值选的是10。

最后来看如何使用交叉验证，最简单的方法就是调用 cross_val_score 辅助函数。可以看官方这个示例，这里用的K值是5：

from sklearn.model_selection import cross_val_score

clf = svm.SVC(kernel='linear', C=1)
scores = cross_val_score(clf, X, y, cv=5)
scores

>>> array([0.96..., 1.  ..., 0.96..., 0.96..., 1.        ])

参考资料：sklearn官方文档

小白掌柜

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
数据分析面试、笔试题汇总+解析（四）

今天解决最后一道题????：把数据集随机划分为训练集和测试集，按8：2的比例。一般会想到用随机划分的方法，即使用sklearn库里面的model_selection模块的train_test_split方法。这里掌柜就直接拿官方的鸢尾花数据集示例来演示一下：这????就是此题的解法（当然，在此环境下该方法是没什么问题的，而且大多数情况下我们也是这么划分数据集的；），但是此方法存在一定的缺点，即在测试集...
复制链接

扫一扫