训练样本和测试样本

一, 训练样本和测试样本

训练样本的目的是 数学模型的参数,经过训练之后,可以认为你的模型系统确立了下来。

建立的模型有多好,和真实事件的差距大不大,既可以认为是测试样本的目的。

一般训练样本和测试样本相互独立,使用不同的数据。


网上有人说测试样本集和验证样本集不一样,测试样本集数据主要用于模型可靠程度的检验,验证样本集的样本数据要在同样条件下,再另外采集一些数据用来对模型的准确性进行验证。(?)
有人采用交叉验证,交叉验证指的的训练样本集、测试样本集、验证样本集、三中数据集都组合在一起,数据的划分采用交叉取样的方法。

 

 

二,如何选择训练集和测试集

未完待续

网上有人说 经常采用的是m-folder cross validation的方法,把样本分成m份,轮流把其中一份作为测试集。至于m取多少看样本数量而定,样本充足的话m=10,另外m=3也是经常被使用的

 

至于验证集,通常并不需要。

 


三,Clementine中如何选择节点将数据分为训练集和测试集

前期整理好数据后,选择partition节点 连接入数据流,在里面可以设置训练集、测试集及验证集,若要平分在测试集及训练集栏位内填上50%。 
另外可以设置标签及数值;下面的设置是对数据表中增加标志字段(区分测试集和训练集)的数值进行选择,第一个表示使用1、2、3这样的数值来表示,第二个是 使用“1_training“等来表示,第三个是使用”training“等来表示,可以通过第二个图中的value来观察。此外下面还有设置随机种子的 选项。

ps:在分割完不同集合后,可以右击partition节点,选择cache中enable,这样随机分割完的数据就可以暂时存在缓存中,这样不同时候进行不同建模的时候就不会因为样本不同而使结构受影响!(第一次执行后会在节点的右上方出现绿色的文件件的标签)

 

 

四,如何建立测试模型

如果训练好模型后,把所得的模型节点从右上方拖到数据流的测试集后,建立连接后,再加个分析节点或一些结果的节点就可以了。

  • 2
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值