训练样本和测试样本

最新推荐文章于 2024-08-02 11:17:36 发布

sjpljr

最新推荐文章于 2024-08-02 11:17:36 发布

阅读量3.6w

点赞数 2

分类专栏：统计分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sjpljr/article/details/70169157

版权

统计分析专栏收录该内容

63 篇文章 10 订阅

订阅专栏

一，训练样本和测试样本

训练样本的目的是数学模型的参数，经过训练之后，可以认为你的模型系统确立了下来。

建立的模型有多好，和真实事件的差距大不大，既可以认为是测试样本的目的。

一般训练样本和测试样本相互独立，使用不同的数据。

网上有人说测试样本集和验证样本集不一样，测试样本集数据主要用于模型可靠程度的检验，验证样本集的样本数据要在同样条件下，再另外采集一些数据用来对模型的准确性进行验证。（？）
有人采用交叉验证，交叉验证指的的训练样本集、测试样本集、验证样本集、三中数据集都组合在一起，数据的划分采用交叉取样的方法。

二，如何选择训练集和测试集

未完待续

网上有人说经常采用的是m-folder cross validation的方法，把样本分成m份，轮流把其中一份作为测试集。至于m取多少看样本数量而定，样本充足的话m＝10，另外m＝3也是经常被使用的

至于验证集，通常并不需要。

三，Clementine中如何选择节点将数据分为训练集和测试集

前期整理好数据后，选择partition节点连接入数据流，在里面可以设置训练集、测试集及验证集，若要平分在测试集及训练集栏位内填上50%。
另外可以设置标签及数值；下面的设置是对数据表中增加标志字段（区分测试集和训练集）的数值进行选择，第一个表示使用1、2、3这样的数值来表示，第二个是使用“1_training“等来表示，第三个是使用”training“等来表示，可以通过第二个图中的value来观察。此外下面还有设置随机种子的选项。

ps：在分割完不同集合后，可以右击partition节点，选择cache中enable，这样随机分割完的数据就可以暂时存在缓存中，这样不同时候进行不同建模的时候就不会因为样本不同而使结构受影响！（第一次执行后会在节点的右上方出现绿色的文件件的标签）

四，如何建立测试模型

如果训练好模型后，把所得的模型节点从右上方拖到数据流的测试集后，建立连接后，再加个分析节点或一些结果的节点就可以了。

关注

2
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。