强本固基-8-近红外光谱分析中样本的划分方式及选择依据？

最新推荐文章于 2023-12-08 19:20:28 发布

一条大咸咸鱼

最新推荐文章于 2023-12-08 19:20:28 发布

阅读量750

点赞数 2

文章标签：近红外光谱分析近红外光谱光谱分析技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35667901/article/details/132507154

版权

A. 选择代表性样本并完成剔除异常样本后，需要对样本进行划分（此处不讨论样本划分和预处理顺序问题）。通常将样本划分为校正集（训练集）和验证集（测试集），但是在机器学习中可能划分为训练集、验证集和测试集，划分比例通常为7:3或者7:1.5:1.5。对于样本的划分，采用方法包括：Kennard-Stone(K-S)、SPXY方法和随机划分方法，K-S方法基于光谱距离排序划分，SPXY同时考虑参考值和光谱的距离，而随机划分则基于随机数，三者的区别在于训练集的样品覆盖范围。
D. 目前光谱分析默认的一种观念是：校正集需要覆盖较广的浓度范围，这导致实际分析中出现训练集性能优于预测集。此外，对于样本数量对模型影响有相关讨论，以线性模型为例，当参与建模变量为k(k>3)时，默认校正集样品数量一般不低于6k或者5k+1。个人认为，如果从公平对比角度分析，随机划分的可靠性更好。

一条大咸咸鱼

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
强本固基-8-近红外光谱分析中样本的划分方式及选择依据？

通常将样本划分为校正集（训练集）和验证集（测试集），但是在机器学习中可能划分为训练集、验证集和测试集，划分比例通常为7:3或者7:1.5:1.5。对于样本的划分，采用方法包括：Kennard-Stone(K-S)、SPXY方法和随机划分方法，K-S方法基于光谱距离排序划分，SPXY同时考虑参考值和光谱的距离，而随机划分则基于随机数，三者的区别在于训练集的样品覆盖范围。此外，对于样本数量对模型影响有相关讨论，以线性模型为例，当参与建模变量为k(k>3)时，默认校正集样品数量一般不低于6k或者5k+1。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。