问题描述:
假设这是每天的天气数据:1代表有雨,0代表没有雨。假设已经知道最近几天是否下雨,我们希望预测明天是否会下雨。具体而言,对于某个k值,我们会根据最近k天的天气记录来预测明天的天气。我们将使用过半数规则(majority rule:):如果在最近k期里1的数量大于等于k/2,那么预测下一个值为1,否则,预测下一个值为0。例如如果k=3,最近三期的数据为1、0、1,则预测下一期值为1。
但是,我们应该如何选择k?显然,如果选择的值太小,则给我们用以预测的样本量太小。如果取值过大,导致我们使用过于早期的数据,而这些数据只有很少或根本没有预测价值。一个解决方案是针对已知的数据(称为训练集),变换不同的k值,看看预测效果如何。
在天气的例子中,假设我们有500天的数据,假设我们考虑使用k=3。为了评价k值的预测能力,我们基于前三天的数据来预测每天的数据,然后将预测值与已知值进行对比。以此类推,对于k=1、k=2、k=4,我们做同样的事情,直到k值足够大。然后,我们使用训练数据中表现最好的k值,用于未来的预测。
代码如下:
preda <- function( x, k ){
n <- length( x )
k2 <- k / 2