代码地址Github
实验描述
公路运量主要包括公路客运量和公路货运量两个方面。据研究,某地区的公路运量主要与该地区的人口数量、机动车数量和公路面积有关。表1中给出了某地区20年的公路运量相关数据。
根据相关部门数据,该地区2010年和2011年的人口数量分别为73.39和75.55万人,机动车数量分别为3.9635和4.0975万辆,公路面积将分别为0.9880和1.0268万平方千米。
要求:
(1)请利用BP神经网络预测该地区2010年和2011年的公路客运量和公路货运量。
(2)请利用其他方法预测该地区2010年和2011年的公路客运量和公路货运量,并比较这两种方法的优缺点。
数据处理
训练数据
测试数据
数据归一化
我们发现,多个特征之间的数据不在一个数量级上,比如人口数量和公路面积,相差比较大,因此得进行数据归一化。
我们采用极大极小值的归一化方法:
代码实现
def Norm(dataMat,labels): #归一化数据
dataMat_minmax = np.array([dataMat.min(axis=1).T.tolist()[0],dataMat.max(axis=1).T.tolist()[0]]).transpose() #取得最大值和最小值
dataMat_Norm = ((np.array(dataMat.T)-dataMat_minmax.transpose()[0])/(dataMat_minmax.transpose()[1]-dataMat_minmax.transpose()[0])).transpose() #归一化后的输入数据
labels_minmax = np.array([labels.min(axis=1).T.tolist()[0],labels.max(axis=1).T.tolist()[0]]).transpose() #取得最大值和最小值
labels_Norm = ((np.array(labels.T).astype(float)-labels_minmax.transpose()[0])/(labels_minmax.transpose()[1]-labels_minmax.transpose()[0])).transpose() #归一化后的输出数据
return dataMat_Norm,labels_Norm,dataMat_minmax,labels_minmax
具体实现
BP神经网络
神经网络分为输入,隐层与输出层,除了输入层外,其余的每层激活函数均采用 f(x),MLP 容易受到局部极小值与梯度弥散的困扰,一个三层BP网络的网络结构如下所示:
激励函数
隐藏层中的人工神经元,也称单元,通常用非线性激励函数,如双曲正切函数和逻辑函数:
log-sigmoid:
函数图形
tan-sigmoid:
函数图形
由于我们之前对数据进行归一化的时候,将数据归一到0-1区间,因此我们可以选用log-sigmoid函数。
代码实现:
def f(x): #激励函数
return 1/(1+np.exp(-x))
损失函数
和其他监督模型一样,目标是找到成本函数最小化的权重值,通常,MLP的成本函数是残差平方和的均值,计算公式如下:
代码实现:
err = sampleoutnorm - networkout # sampleoutnorm与networkout都是归一化之后的数值
sse = sum(sum(err**2))/m
隐含层的选取
在BP神经网络中,输入层和输出层的节点个数都是确定的,而隐含层节点个数不确定,那么应该设置为多少 才合适呢?实际上,隐含层节点个数的多少对神经网络的性能是有影响的,有一个经验公式可以确定隐含层 节点数目,如下