自组织数据挖掘方法的基本思想是从对系统有影响的变量样本数据中自动产生大量模型,并根据外部准则从模型集合选择一个最优复杂度的模型。它主要包含两个任务:1)从数据样本中挖掘(估计)系统变量之间未知的相关性2)利用前一步中估计的相关性来解决问题,对系统变量进行预测。
在本文所论述的实验中主要使用的是自组织数据挖掘方法中的多层算法,它是GMDH中最常用的算法。令为系统的个可测变量,第一层将这个变量进行两两组合,是关于的局部模型方程,是第一层产生的所有局部模型的个数,个变量共有个局部模型。,j=1,2,…是在训练集上估计出的参数系数。通过外准则在个局部变量中选择个模型作为第二层的输入。第二层将产生个形如局部模型。同理,假设有个模型选出作为第三层,则将会有个局部模型产生。重复上述过程,直到拟合次数到达用户所指定的界限,则拟合结束。最后一层根据外准则选出最优复杂度模型作为最终的模型方程。
本实验所使用的外准则有两个:
一是误差平方和最小;求出局部模型方程之后,根据测试集估计输出值为,而实际输出值为,则输出误差为

其误差平方和为:

二是每一层模型方程所包含的变量个数少于给定的值。第二层拟合时每个局部模型包含两个原始变量,第三层拟合时每个局部模型可能包含3个或者4个原始变量,随着拟合次数的递增,局部模型中包含的原始变量的个数也在不断增加,当原始变量的个数趋近于整个数据集的时候所得到的模型将没有意义,不能说明GDP与哪些经济数据有关系,所以在拟合的过程中应该控制原始变量的增长。在本实验中前三层层拟合由于原始变量较少不予控制,第四层拟合是每个局部模型包含的原始变量少于6个,第五层少于7个,… ,第8层及以后少于10个。