DT时代,机器学习作为一门热门的科学研究项目,也成为了众多IT人想要进修或从事的领域。现在,大圣众包威客平台(www.dashengzb.cn)便为大家搜罗15道或常见或棘手的机器学习面试题目,让欲从事相关工作的IT人能够更加从容地走上机器学习专家之路。
问1:你会在时间序列数据集上使用什么交叉验证技术?是用k倍或LOOCV?
答:都不是。对于时间序列问题,k倍可能会很麻烦,因为第4年或第5年的一些模式有可能跟第3年的不同,而对数据集的重复采样会将分离这些趋势,而我们最终可能只是需要对过去几年的进行验证,这就不能用这种方法了。相反,我们可以采用如下所示的5倍正向链接策略:
fold 1 : training [1], test [2]
fold 2 : training [1 2], test [3]
fold 3 : training [1 2 3], test [4]
fold 4 : training [1 2 3 4], test [5]
fold 5 : training [1 2 3 4 5], test [6]