A. 选择代表性样本并完成剔除异常样本后,需要对样本进行划分(此处不讨论样本划分和预处理顺序问题)。通常将样本划分为校正集(训练集)和验证集(测试集),但是在机器学习中可能划分为训练集、验证集和测试集,划分比例通常为7:3或者7:1.5:1.5。对于样本的划分,采用方法包括:Kennard-Stone(K-S)、SPXY方法和随机划分方法,K-S方法基于光谱距离排序划分,SPXY同时考虑参考值和光谱的距离,而随机划分则基于随机数,三者的区别在于训练集的样品覆盖范围。
D. 目前光谱分析默认的一种观念是:校正集需要覆盖较广的浓度范围,这导致实际分析中出现训练集性能优于预测集。此外,对于样本数量对模型影响有相关讨论,以线性模型为例,当参与建模变量为k(k>3)时,默认校正集样品数量一般不低于6k或者5k+1。个人认为,如果从公平对比角度分析,随机划分的可靠性更好。
强本固基-8-近红外光谱分析中样本的划分方式及选择依据?
最新推荐文章于 2023-12-08 19:20:28 发布