1. 可以使用所有的数据
一般模型训练都要把数据分成训练集和验证集合,这就导致训练数据比原始的数据要少,并且验证集也无法是所有的原始数据。
如果使用交叉验证,所有数据都可以用作训练(但不是同一个模型),所有数据也都可以用作验证集。
2. 评估模型的稳定性及调参
比如5折交叉验证,在参数确定了的情况下,我们可以将数据弄成五份,每一份中80%训练,20%作为测试集,这样可以训练五个模型,这五个模型除了训练集测试集不同外,其他的都相同,这样我们可以得到五个模型的评估指标比如auc,计算五个模型得到的auc的方差,如果方差小说明模型的泛化性比较好,模型比较稳定是个好模型,否则说明模型泛化性不好。
xgboost中cv函数返回的值包括两个,一个是单模型的评价指标(比如auc),另外一个是模型的方差。
参数不确定的情况下,我们通过模型的准确性和稳定性来选择最合适的参数。
3. stacking的模型融合方法
stacking模型融合方法中,第二个模型中的特征一般来自第一个模型中对数据的预测,我们不能用自己的训练然后预测自己,这时就要用stacking的方法来分块生成,每次80%的数据训练,用得到的模型预测剩下的20%和test data,重复五次就能得到所有训练集的所有预测结果,从而作为第二个模型的输入。下图比较容易表达这一过程
4. 处理分组的数据
举个例子,比如语音识别程序,训练集为三个不同的人说的话,如果我们将这三个人说的话融合到一起然后随机采样进行训练和测试,那么结果应该是偏好的。
如果我们用其中两个人声音进行训练第三个人的声音进行测试,那么就能很好的评估模型的泛化性
</div>
<link href="https://csdnimg.cn/release/phoenix/mdeditor/markdown_views-b6c3c6d139.css" rel="stylesheet">
<div class="more-toolbox">
<div class="left-toolbox">
<ul class="toolbox-list">
<li class="tool-item tool-active is-like "><a href="javascript:;"><svg class="icon" aria-hidden="true">
<use xlink:href="#csdnc-thumbsup"></use>
</svg><span class="name">点赞</span>
<span class="count"></span>
</a></li>
<li class="tool-item tool-active is-collection "><a href="javascript:;" data-report-click="{"mod":"popu_824"}"><svg class="icon" aria-hidden="true">
<use xlink:href="#icon-csdnc-Collection-G"></use>
</svg><span class="name">收藏</span></a></li>
<li class="tool-item tool-active is-share"><a href="javascript:;"><svg class="icon" aria-hidden="true">
<use xlink:href="#icon-csdnc-fenxiang"></use>
</svg>分享</a></li>
<!--打赏开始-->
<!--打赏结束-->
<li class="tool-item tool-more">
<a>
<svg t="1575545411852" class="icon" viewBox="0 0 1024 1024" version="1.1" xmlns="http://www.w3.org/2000/svg" p-id="5717" xmlns:xlink="http://www.w3.org/1999/xlink" width="200" height="200"><defs><style type="text/css"></style></defs><path d="M179.176 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5718"></path><path d="M509.684 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5719"></path><path d="M846.175 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5720"></path></svg>
</a>
<ul class="more-box">
<li class="item"><a class="article-report">文章举报</a></li>
</ul>
</li>
</ul>
</div>
</div>
<div class="person-messagebox">
<div class="left-message"><a href="https://blog.csdn.net/dpengwang">
<img src="https://profile.csdnimg.cn/6/4/C/3_dpengwang" class="avatar_pic" username="dpengwang">
<img src="https://g.csdnimg.cn/static/user-reg-year/1x/2.png" class="user-years">
</a></div>
<div class="middle-message">
<div class="title"><span class="tit"><a href="https://blog.csdn.net/dpengwang" data-report-click="{"mod":"popu_379"}" target="_blank">很吵请安青争</a></span>
</div>
<div class="text"><span>发布了671 篇原创文章</span> · <span>获赞 153</span> · <span>访问量 52万+</span></div>
</div>
<div class="right-message">
<a href="https://bbs.csdn.net/topics/395532381" target="_blank" class="btn btn-sm btn-red-hollow bt-button personal-messageboard">他的留言板
</a>
<a class="btn btn-sm bt-button personal-watch" data-report-click="{"mod":"popu_379"}">关注</a>
</div>
</div>
</div>
</article>