神经网络是线性模型吗,人工神经网络预测模型

bp神经网络为什么要采用非线性函数来进行预测?

提问:bp神经网络为什么要采用非线性函数来进行预测?回答:简单的讲,主要是复杂的bp神经网络的行为动态及神经元之间的相互作用是无法用简单的线性函数来描述的!

一般来讲,用数学函数模拟一个系统输入与输出的关系(系统函数)时,设其函数为f(x),则它可以表征为一个输入变量x的多项式,即f(x)=∑an*x^n∣n=0->∞.;当n≥2时,f(x)就成为非线性函数了。

an是每个x高次项的系数。可以用具体的实际实验数据来确定。

谷歌人工智能写作项目:小发猫

地质灾害风险评估方法

滑坡泥石流等地质灾害的不确定性决定了其评估方法采用非确定性分析方法博兴神经网络优化算法,博兴神经网络优化算法。该类方法是基于地质灾害预测理论的广义系统科学原理,在类比法的基础上发展起来的一类研究方法。

随着概率论、数理统计及信息理论、模糊数学理论用于地质灾害预测,目前已形成了多种预测模型,其预测成果可相互对比、检验,从而可使预测成果更具合理性、科学性。目前常用的非确定性分析方法主要有以下几种。

一、参数合成法参数合成法又称专家经验指数综合评判法。它是最为简单的定量评估方法。

该类模型主要是建立在专家丰富的经验基础之上的,通过专家打分法等途径获取专家经验知识,专家选择影响地质灾害的因子并编制成图。

根据专家的经验,赋予每个因子一个适当的权重,最后进行加权叠加或合成,形成地质灾害危险性分区图。

它的主要优点是:①可以同时考虑大量的参数;②可以应用于任意比例尺的区域和单体斜坡稳定性评估;③大大降低了隐含规则的使用,定量化程度提高;④整个流程可以在GIS的支持下快速完成,使数据管理标准化,时间短,费用少。

主要缺点有:①主观性较强,不同的调查者或专家得出的结果无法进行比较。

权值的确定仍含有不同程度的主观性;②隐含的评判规则使结果分析和更新困难;③需要详细的野外调查;④应用于大区域评估时,操作复杂,模型难以推广。

二、数理多元统计模型法该方法是通过对现有地质灾害及其类似不稳定现象与地质环境条件和作用因素之间的统计规律研究,建立相关的预测模型,从而预测区域地质灾害的危险性。

该类模型方法很多,如回归分析、判别分析、聚类分析方法等。

统计分析的前提是已知学习区(训练区)的地质灾害分布情况,根据数理统计理论,建立影响参数和地质灾害发生与否的数学统计模型,在测试区得到验证后,将其应用到地质环境相同或相似的地区,预测研究区的灾害危险性分布规律。

因此,统计分析方法评估的结果的可靠度直接取决于测试区原始数据的精度,模型也不能在任何地区推广使用。

尽管如此,大量的研究表明,统计分析是目前最为适用的区域地质灾害危险度评估区划方法,它有严格的数理统计理论作基础,数学模型简单易懂,而且与GIS技术能够很好地结合,使庞大的数据得到合理的标准化管理、分析与储存。

多元统计分析中的主成分分析和因子分析方法在环境统计方面有不少成功的应用。将这两种方法结合起来的主成分-因子分析法可以应用于多变量的因子赋权研究(吴聿明,1991)。

主成分-因子分析法的主要思想是(应农根,刘幼慈,1987):在所研究的全部原始变量中将有关信息集中起来,通过探讨相关矩阵的内部依赖结构,将多变量综合成少数彼此互不相关的主成分,以再现原始变量之间的关系,并通过因子荷载矩阵的轴正交或斜交旋转,进一步探索产生这些相关联系的内在原因。

此方法适用于区域地质灾害空间预测研究,对一定地区土地利用、国土开发、城市规划具有宏观指导作用。

三、层次分析法层次分析法是对一个包括多方面因子而又难以准确量化的复杂系统进行分析评估时,根据各因子之间以及它们与评估目标的相关性,理顺组合方式和层次,据此建立系统评估的结构模型和数学模型;对模型中的各种模糊性因子,根据它们的强度以及对影响对象的控制程度,确定标度指标和作用权重;将这些指标作为基本参数,代入评估模型,逐级进行定量分析并最终取得评估目标。

根据地质灾害风险系统组成,大致可通过4个层次的统计分析完成评估工作:以各种要素为主体的基础层统计分析;以危险性、易损性、减灾能力为目的的过渡层分析;以期望损失为目标的准则层分析;以风险度或风险等级为最终目标的目标层分析。

四、模糊与灰色聚类方法模糊聚类判别法模型以模糊数学理论为基础。

由于地质灾害系统的复杂性,用绝对的“非此即彼”不能准确地描述地质灾害系统的客观实际,存在着“亦此亦彼”的模糊现象,不能用1或0二值逻辑来刻画,而需用区间[0,1]的多值(或连续值)逻辑来表达。

而模糊数学理论正是适用于地质灾害系统的不确定性,用隶属函数来描述那些边界不清的过渡性问题及受多因素影响的复杂系统的非确定性问题。

目前常用的方法有模糊综合评判法、模糊可靠度分析方法及其与层次性原理相结合而派生的模糊层次综合评判法。

模糊聚类综合评估的基本步骤是:根据地质灾害风险构成,建立因素集、综合评估集和权重集,确定隶属函数,得到综合评估结果,并进行解释分析。

灰色聚类综合评估法以灰色系统理论为基础,常用于研究“小样本、贫信息不确定性”问题。

在地质灾害预测中,可利用灰色关联分析,评估斜坡稳定性各影响因素的影响程度,可以克服通常数理统计方法作系统分析所导致的缺憾,对样本量和样本的规律性无特殊要求。

同样可通过灰色聚类中的灰类白化权函数聚类,在考虑多种影响因素的基础上对各研究单元的危险性状态进行判定,进而完成空间预测中的危险性分区。

灰色系统的以灰色模型(GM)为核心的各种预测模型还为分析地质灾害预测中的各种时序数据提供了有效途径,成为目前地质灾害实时跟踪预报的常用方法之一。

灰色聚类综合评估的基本步骤是:确定聚类白化数和白化函数,标定聚类权,求聚类系数,构造类向量,求解聚类灰数。五、信息模型评估法该类模型的理论基础是信息论。

用地质灾害发生过程中熵的减少来表征地质灾害事件产生的可能性,因素组合对某地质灾害事件的确定所带来的不肯定性程度的平均减少量等于该地质灾害系统熵值的变化。

认为地质灾害的产生与预测过程中所获取的信息的数量和质量有关,是用信息量来衡量的,信息量越大,表明产生地质灾害的可能性越大。该类模型预测法同统计预测模型一样,适用于中小比例尺区域预测。

信息科学现已成为广泛使用的一门科学,但它的产生却只有短短的半个世纪历史。1948年Shannon发表的著名论文《通信的数学理论》标志着信息科学的诞生。

Shannon把信息定义为“随机事件不确定性的减少”,并把数学统计方法移植到了通信领域,提出了信息量的概念及信息熵的数学公式。

信息科学研究的对象是信息,它的重要任务是研究信息的提取、信息传输、信息处理、信息存储等。

由于现代自然科学发展的综合整体化趋势,各学科的相互渗透、相互联系,经过几十年的发展,使信息量和信息熵的概念已远远超出了通信领域。

信息科学不仅应用于各种自然科学领域,而且已广泛应用在管理、社会等科学领域。运用信息论方法进行地质学领域的矿床预测研究是由维索奥斯特罗斯卡娅(1968)及恰金(1969)先后提出。

赵鹏大等在《矿床统计预测》一书中研究了信息量方法在区域找矿工作中的应用问题。

晏同珍、殷坤龙等自1985年起,先后多次在陕南及长江三峡库区探索了信息量方法在区域性滑坡灾害空间预测分区中的应用,并与其他方法(如聚类分析、回归分析、数量化理论方法等)的研究成果进行了比较性研究。

艾南山、苗天德(1987)研究了侵蚀流域地貌系统的信息熵问题,他们在斯揣勒的流域面积——高程曲线的基础上构造了侵蚀流域地貌系统的信息熵表达式,并据此作为流域稳定性的一种判定指标。

ReadJ.和HarrM.(1988)首次将信息熵的概念与斜坡安全系数计算的条分法结合在一起。由于地质灾害预测内容的多样性,所以决定了预测理论和方法的非单一性。

晏同珍等(1989)将其概括为三类模型预测法——确定性模型预测法、统计模型预测法、信息模型预测法;前两种模型又可分别称其为“白箱”和“黑箱”模型,而信息模型则是介于两者之间。

地质灾害现象(Y)受多种因素Xi的影响,各种因素所起作用的大小、性质是不相同的。在各种不同的地质环境中,对于地质灾害而言,总会存在一种“最佳因素组合”。

因此,对于区域地质灾害预测要综合研究“最佳因素组合”,而不是停留在单个因素上。

信息预测的观点认为,地质灾害产生与否是与预测过程中所获取的信息的数量和质量有关,因此可用信息量来衡量:地质灾害风险评估理论与实践根据条件概率运算,上式可进一步写成:地质灾害风险评估理论与实践式中:I(y,x1x2xn)为因素组合x1x2xn对地质灾害所提供的信息量(bit);P(y,x1x2xn)为因素x1x2xn组合条件下地质灾害发生的概率;Ix1(y,x2)为因素x1存在时,因素x2对地质灾害提供的信息量(bit);P(y)为地质灾害发生的概率。

式(2)说明,因素组合x1x2xn对地质灾害所提供的信息量等于因素x1提供的信息量,加上因素x1确定后因素x2对地质灾害提供的信息量,直至因素x1x2xn-1确定后,xn对地质灾害提供的信息量,反映出信息的可加性特征,从而说明区域地质灾害信息预测是充分考虑因素组合的共同影响与作用。

P(y,x1x2xn)和P(y)可用统计概率来表示,各种因素组合对预测地质灾害提供的信息量可正可负,当P(y,x1x2xn)>;P(y)时,I(y,x1x2xn)>;0;反之I(y,x1x2xn)<;0。

大于0情况表示因素组合x1x2xn有利于所预测地质灾害的发生,相反情况则表明这些因素组合不利于地质灾害的发生。

区域地质灾害预测是在对研究区域网格单元划分的基础上进行的,根据不同地区具体的地质、地形条件,采用相应的网格形状和网格大小,进一步结合区域地质灾害分布图开展信息统计分析。

假定某区域内共划分成N个单元,已经发生地质灾害的单元为N0个。具相同因素x1x2xn组合的单元共M个,而在这些单元中有地质灾害的单元数为M0个。

按照统计概率代表先验概率的原理,式(1),因素x1x2xn在该地区内对地质灾害提供的信息量为:地质灾害风险评估理论与实践如果采用面积比来计算信息量值,则式(3)可表示成:地质灾害风险评估理论与实践式中:A为区域内单元总面积;A0为已经发生地质灾害的单元面积之和;S为具相同因素x1x2xn组合的单元总面积;S0为具相同因素x1x2xn组合单元中发生地质灾害的单元面积之和。

一般情况下,由于作用于地质灾害的因素很多,相应的因素组合状态也特别多,样本统计数量往往受到限制,故采用简化的单因素信息量模型的分步计算,再综合叠加分析相应的信息量模型改写为:地质灾害风险评估理论与实践式中:I为预测区某单元信息量预测值;Si为因素xi所占单元总面积;S0i为因素xi单元中发生地质灾害的单元面积之和。

六、实证权重法实证权重法(Weightsofevidence,)是加拿大数学地质学家Agterberg等(1989)提出的一种基于二值(存在或不存在)图像的地学统计方法,是在假设条件独立的前提下,基于贝叶斯定理(Bayesian’rule)的一种定量预测方法。

Bonham-Carter等(1990)和Harris等(2001)都先后应用WOE方法来预测矿产的远景分布。

通过对已知成矿情况网格单元的预测因子和响应因子之间的统计分析,计算出权重,然后对各待预测网格单元的各预测因子进行加权综合,最后,通过确定每一单元响应因子出现的概率大小便可得到不同级别的成矿远景区。

VanWesten进一步将模型应用到灾害危险性评估领域。

数据驱动权重模拟方法的主要原理是利用滑坡历史分布数据,建立滑坡分布与各影响因子之间的统计关系,即根据在各影响因子不同类别中滑坡分布的统计情况来确定各影响因子对滑坡灾害的贡献率(权重)大小。

这种采用数据进行权重确定的方法被称为数据驱动模型。与专家知识模型相比,权重的确定更加科学和可靠,避免了专家的主观性所带来的不确定性。

最后,利用另一时期的滑坡分布历史数据对评估结果进行检验和成功率预测,调整不合理的边界,使评估结果更加具有可信度。

基于统计学的Bayesian方法的数据驱动权重模型所采用的统计方法更加严谨,充分考虑了滑坡影响因素之间的关系,以及各影响因素与滑坡灾害的关系;并进行影响因素的独立性分析,找出最关键的影响因子。

在此基础上计算各影响因素的权重。七、非线性模型预测法非线性模型预测法又称BP神经网络法,是把一组样本的输入输出问题变为一个非线性优化问题而建立的预测模型。

鉴于地质灾害系统具有复杂性特点,很难用简单的线性方程表达,因此使一批非线性预测模型迅速发展起来。如分形理论就是通过研究地质灾害系统的自相似性来对地质灾害的运动规律进行研究。

易顺民应用分形理论研究了区域性滑坡灾害活动的自相似结构特征,发现在地质灾害活动的高潮期到来前有明显的降维。

吴中如、黄国明等依据分形理论提出了滑坡变形失稳判据及滑坡蠕滑的相空间模型,是地质灾害时间预报的一种全新思路。

自组织理论探索地质灾害复杂系统如何从无序进化到有序的自组织过程;突变理论主要从定量的角度描述非线性系统在临界失稳时的突变行为,为地质灾害时间预报提供了一种新途径;分形理论则从几何的角度探讨系统内各个层次间的自相似性,应用在地质灾害过程描述及过程预报中,化复杂为简单,化定性为定量;混沌动力学探讨非线性地质灾害系统在其演化过程中的不可逆性和演化行为对初值的敏感性。

人工神经网络(ArtificialNeuralNetwork,简称ANN)是由大量与自然神经细胞类似的人工神经元广泛互连而成的网络。

网络的信息处理由神经元之间的相互作用来实现,知识与信息的存贮表现为网络元件互连间分布式的物理联系,网络的学习和识别决定于各神经元连接权系的动态演化过程。

人工神经网络是一个超大规模非线性连续时间自适应信息处理系统。目前人工神经网络的应用已渗透到许多领域,为学习识别和计算提供了新的现代途径。

人工神经网络使用比较方便,它的信息处理过程同人脑一样,是一个黑箱,如图1-6所示。在实际应用中,和人们打交道的只是它表层的输入和输出,而内部信息处理过程是看不到的。

对于不懂神经网络内部原理的人,也可将自己的问题交给这种网络进行解决,只要把你的例子让它学习一段时间,它就可以解决与之有关的问题。这正符合地质灾害预测理论的基本原理和思路。

图1-6神经网络信息处理示意图根据人工神经网络对生物神经系统的不同组织层次和抽象层次的模拟,人工神经网络可以分为多种类型。目前已有40余种人工神经网络模型。

引用于地质灾害预测评估的多层前馈神经网络模型(BackPropagation,简称BP模型)是目前应用最广泛、发展最成熟的一种神经网络模型,如图1-7所示,它是按层次结构构造的,包括一个输入层、一个输出层和一个或多个隐含层。

图1-7BP网络模型实际上,BP模型是把一组样本的输入输出问题变为一个非线性优化问题。我们可以把这种模型看成一个从输入到输出的映射,这个映射是高度非线性的。

如果输入节点数为n,输出节点数为m,则神经网络表示的是从n维欧氏空间到m维欧氏空间的映射。在预测识别过程中,标准样本的选择是否得当,是预测是否成功的关键。

一般来说,学习样本最好能涵盖预测对象的所有状态,具有广泛的代表性。在确定网络结构时,一般来讲,一个隐层的三层BP模型已可进行任意精度模拟任何连续函数。

隐含层结点数目过少,不能有效地映射输入层和输出层之间的关系;过多,收敛速度过慢。因此,中间层结点数目的选取,需经过反复演算训练,才能得出较为理想的节点数。

在计算过程中,为了提高效率,可以适当降低输入结点的数目,减少训练样本的维数,以增加网络的稳定性,同时还可以通过增加冲量项法或者自适应调节学习率、共轭梯度法等方法提高迭代收敛速度。

BP模型运用到地质灾害危险性区划中,可以通过样本区的标准样本的学习建立相应预测网络,从而推广到预测区进行预测。

网络的输入层的变量对应于影响地质灾害产生的主要影响因素,变量可以是二态变量,也可以是具体的观测数据。当然由于各变量存在单位或数量级的差异,必须把变量数据经过正规化或标准化处理。

输出层对应的是地质灾害预测等级(极高、高、中等、低、极低)的划分,或是危险程度的具体数值表达,如稳定性系数、破坏概率等,这就要求样本区的研究精度较高,指标细化程度较高。

八、地质灾害风险分析与GIS技术地理信息系统(GIS)是集计算机科学、信息科学、现代地理学、遥感测绘学、环境科学、城市科学、空间科学、管理科学和现代通讯技术于一体的一门新兴学科。

具体而言,GIS是指对各种地理信息及其载体(文字、数据、图表、专题图等)进行输入、存储、检索、修改、量测、运算、分析、输出等的技术系统。

GIS的主要功能有采集、存储、管理、分析、输出各种数据、数据维护和更新、区域空间分析以及多因素综合分析和动态监测等。

GIS不仅可以像传统的数据库管理系统(DBMS)那样管理数字和文字(属性)信息,而且还可以管理空间(图形)信息;它可以使用各种空间分析的方法,对多种不同的信息进行综合分析,寻找空间实体间的相互关系,分析和处理一定区域内分布的现象和过程。

当代地理信息系统正向能够提供丰富、全面的空间分析功能的智能化GIS的方向发展。

智能化的GIS具有强大的空间建模功能,能够构建各种具有专业性、综合性、集成性的地学分析模型来完成具体的实际工作,解决以前只有靠地学专家才能解决的问题。

GIS把各种与空间信息相关的技术与学科有机地融合在一起,并与不同数据源的空间与非空间数据相结合,通过空间操作与模型分析,提供对规划、管理、决策有用的信息产品。

GIS为我们提供了一种认识和理解地学信息的新方式,GIS强大的空间分析功能和空间数据库管理能力为我们研究区域地质灾害提供了一个科学、便捷的崭新途径。

作为数字地球的核心技术之一,GIS经过将近40年的发展,已经成为一种日益成熟的空间数据处理技术和方法。

它提供了一种认识和理解地学信息的新方式,已广泛应用于国土资源调查、环境质量评估、区域规划设计、公共设施管理等方面。

在地质灾害研究领域,GIS技术的应用已从最初的数据管理、多源数据采集数字化输入和绘图输出,到数字高程模型、数字地面模型的使用、GIS结合灾害评估模型的扩展分析、GIS与决策支持系统的集成、GIS虚拟现实技术的应用等,并逐步发展与深入应用。

各种地质灾害都是在地球表层一定空间范围和一定时间限度内发生的,尽管不同种类的地质灾害之间、同一种类的地质灾害的不同个体之间大都形态各异,形成机理也是千差万别,但它们都是灾害孕育环境与触发因子共同作用的结果,而这些都与空间信息密切相关,利用GIS技术不仅可以对各种地质灾害及其相关信息进行管理,而且可以从不同空间和时间的尺度上分析地质灾害的发生与环境因素之间的统计关系,评估各种地质灾害的发生概率和可能的灾害后果。

地质灾害危险性区划图属于一种综合图件,而且具有一定时段内的静态特点,因此需要不断更新;尤其是有新的地质灾害发生的时候,更应及时修订。

由于GIS技术的空间分析、制图功能和可视化的特点,所以GIS技术在地质灾害区划研究方面正得到快速发展,以GIS软件为技术平台的地质灾害的危险性、易损性和风险评估的系统研究逐步成为本领域研究的发展方向,并有可能在不远的未来与网络技术相结合。

国外尤其是发达国家,对GIS技术应用于地质灾害领域的研究已做了很多工作。

从20世纪80年代至今,GIS技术的应用已从数据管理、多源数据采集、数据化输入和绘图输出,到数字高程模型、数字地面模型的使用、GIS结合灾害评估模型的扩展分析、GIS与决策支持系统(DSS)的集成、GIS虚拟现实技术的使用,都得到不断的发展和广泛的应用。

在滑坡灾害研究领域,GIS技术的应用已经比较成熟,主要体现在以下几个方面:(1)建立基于GIS的滑坡灾害信息管理系统。

如KeaneJamesM.(1992),BaharIrwan(1998),BlissNormanB.(1998)等将GIS运用到滑坡灾害历史数据的管理及预测成果成图表征中。

(2)GIS技术与各种评估模型结合运用到滑坡危险性预测中。

如Matula(1987),LekkasE.(1995),Randall(1998),DhakalAmodSagar(1999)等利用GIS的空间分析功能与预测模型的结合,完成了滑坡预测因素的空间叠加,进行滑坡危险性预测,得出相应的预测分区图和滑坡敏感性图。

(3)进行基于GIS的滑坡灾害风险分析预测与管理。

如Ellene(1994),Leroi(1996),Bunza(1996),CastanedaOscarE.(1998),Atkinson(1998),Michael(2000),Aleotti(2000)等从影响滑坡灾害风险的因素出发,利用GIS的空间分析功能进行因素叠加,实现风险评估并结合GIS的信息管理功能,对灾害信息进行管理,最终进行管理决策,大到防灾减灾的目的。

目前,国外在滑坡灾害预测领域已基本实现了RS与GIS的紧密结合,个别项目已达到了3S技术的结合。国内基于GIS技术开展地质灾害评估工作起步较晚,目前还没有成熟实用的地质灾害预测评估的GIS系统。

姜云、王兰生(1994)在山区城市地面岩体稳定性管理与控制中应用了GIS技术,以重庆市为典型研究对象,对地面岩体变形破坏进行了时空预测预报;同时,通过分析城市地质环境对土地工程利用的制约关系,应用GIS的信息存储、查询、空间叠加运算及DEM模型等功能,做出地力等级划分,并编制了斜坡稳定性综合评估分区图。

雷明堂、蒋小珍等(1994)将GIS技术运用在岩溶塌陷评估中,完成了研究区岩溶塌陷危险度评估及分区。

成都理工学院(1998)和中国地质环境监测院及国土资源部长江三峡地质灾害防治指挥部合作进行了“地质灾害信息系统及防治决策支持系统”开发试验工作,初步建立了一个全国地质灾害调查与综合评估系统。

中国国土资源经济研究院、中国地质大学、中国地质科学院岩溶地质研究所、国土资源部实物地质资料中心(2002)联合开展了“全国地质灾害风险区划”项目攻关,利用国产软件MAPGIS,对全国小比例尺滑坡、泥石流、岩溶塌陷地质灾害进行了基于GIS的风险评估(包括地质灾害危险性评估、易损性评估和风险性区划)。

朱良峰等在国产版权的MAPGIS软件平台上,开发了一套地质灾害风险评估系统RISKANLY。这套基于GIS技术的地质灾害风险分析不仅方法上可行,而且技术上先进,代表着地质灾害风险分析的发展方向。

当然,无论是地质灾害的危险性分析模型,还是区域社会经济易损性分析模型,都有待于实践中的进一步研究与发展,这显然是应该随着人类对地质灾害本质属性认识的逐渐深化而不断发展的。

随着我国社会经济的迅速发展和城市化进程的加快,崩塌、滑坡、泥石流、地面塌陷等地质灾害破坏的广度与深度也在迅速增大,需要更加关注地质灾害的区域时空预测研究。

与地质灾害有关的相关因素很多且成因复杂,都与空间信息密切相关,因此,利用GIS技术不仅可以对地质灾害相关的各种空间信息进行管理,而且可以从不同的空间和时间尺度上分析地质灾害的发生与环境因素之间的统计关系,评估地质灾害的发生风险和可能的灾害范围。

因此,基于GIS的地质灾害风险评估与区划将会在未来我国的社会经济发展中起着重要的作用。

九、小结地质灾害风险评估涉及两个重要的方面:一是地质灾害发生的可能性问题,二是人类自身、社会及环境等对象对地质灾害的抵御能力问题。

因此,地质灾害的定义采用国际上的geologicalhazard一词。

本书遵循科学性、通用性的原则,结合国内近年来在地质灾害风险评估领域已初步形成的有代表性的术语表达方式,在联合国教科文组织提出的统一定义的基础上,对地质灾害风险评估所涉及的基本术语定义如下:(1)危险度H(Hazard)。

特定地区范围内某种潜在的地质灾害现象在一定时期内发生的概率。(2)易损性V(Vulnerability)。

某种地质灾害现象以一定的强度发生而对承灾体可能造成的损失程度,易损性可以用0-1来表示,0表示无损失,1表示完全损失。(3)承灾体E(Elementatrisk)。

特定区域内受地质灾害威胁的各种对象,包括人口、财产、经济活动、公共设施、土地、资源、环境等。(4)风险度R(Risk)。

承灾体可能受到各种地质灾害现象袭击而造成的直接和间接经济损失、人员伤亡、环境破坏等。风险等于危险性、易损性、承灾体价值三者的乘积。风险度(R)=危险度(H)×易损度(V)×承灾体价值(E)

求助神经网络做非线性回归问题

样本变量不需要那么多,因为神经网络的信息存储能力有限,过多的样本会造成一些有用的信息被丢弃。如果样本数量过多,应增加隐层节点数或隐层数目,才能增强学习能力。

一、隐层数一般认为,增加隐层数可以降低网络误差(也有文献认为不一定能有效降低),提高精度,但也使网络复杂化,从而增加了网络的训练时间和出现“过拟合”的倾向。

一般来讲应设计神经网络应优先考虑3层网络(即有1个隐层)。一般地,靠增加隐层节点数来获得较低的误差,其训练效果要比增加隐层数更容易实现。

对于没有隐层的神经网络模型,实际上就是一个线性或非线性(取决于输出层采用线性或非线性转换函数型式)回归模型。

因此,一般认为,应将不含隐层的网络模型归入回归分析中,技术已很成熟,没有必要在神经网络理论中再讨论之。

二、隐层节点数在BP网络中,隐层节点数的选择非常重要,它不仅对建立的神经网络模型的性能影响很大,而且是训练时出现“过拟合”的直接原因,但是目前理论上还没有一种科学的和普遍的确定方法。

目前多数文献中提出的确定隐层节点数的计算公式都是针对训练样本任意多的情况,而且多数是针对最不利的情况,一般工程实践中很难满足,不宜采用。事实上,各种计算公式得到的隐层节点数有时相差几倍甚至上百倍。

为尽可能避免训练时出现“过拟合”现象,保证足够高的网络性能和泛化能力,确定隐层节点数的最基本原则是:在满足精度要求的前提下取尽可能紧凑的结构,即取尽可能少的隐层节点数。

研究表明,隐层节点数不仅与输入/输出层的节点数有关,更与需解决的问题的复杂程度和转换函数的型式以及样本数据的特性等因素有关。

神经网络能对数据进行预测吗 数学建模

神经网络本身就是数学的逼近模型,网络最早是由数学中的函数逼近技术而来,按照统计学规律,组合成线性叠加网络,从中分析出一些现实中高度非线性的模型,神经网络本身就是个数学建模,只是经过整理后更容易进行工程实践了,至于预测那是当然可以的。

伤寒、副伤寒流行预测模型(BP神经网络)的建立

由于目前研究的各种数学模型或多或少存在使用条件的局限性,或使用方法的复杂性等问题,预测效果均不十分理想,距离实际应用仍有较大差距。

NNT是Matlab中较为重要的一个工具箱,在实际应用中,BP网络用的最广泛。

神经网络具有综合能力强,对数据的要求不高,适时学习等突出优点,其操作简便,节省时间,网络初学者即使不了解其算法的本质,也可以直接应用功能丰富的函数来实现自己的目的。

因此,易于被基层单位预防工作者掌握和应用。

以下几个问题是建立理想的因素与疾病之间的神经网络模型的关键:(1)资料选取应尽可能地选取所研究地区系统连续的因素与疾病资料,最好包括有疾病高发年和疾病低发年的数据。

在收集影响因素时,要抓住主要影响伤寒、副伤寒的发病因素。

(2)疾病发病率分级神经网络预测法是按发病率高低来进行预测,在定义发病率等级时,要结合专业知识及当地情况而定,并根据网络学习训练效果而适时调整,以使网络学习训练达到最佳效果。

(3)资料处理问题在实践中发现,资料的特征往往很大程度地影响网络学习和训练的稳定性,因此,数据的应用、纳入、排出问题有待于进一步研究。

6.3.1人工神经网络的基本原理人工神经网络(ANN)是近年来发展起来的十分热门的交叉学科,它涉及生物、电子、计算机、数学和物理等学科,有着广泛的应用领域。

人工神经网络是一种自适应的高度非线性动力系统,在网络计算的基础上,经过多次重复组合,能够完成多维空间的映射任务。

神经网络通过内部连接的自组织结构,具有对数据的高度自适应能力,由计算机直接从实例中学习获取知识,探求解决问题的方法,自动建立起复杂系统的控制规律及其认知模型。

人工神经网络就其结构而言,一般包括输入层、隐含层和输出层,不同的神经网络可以有不同的隐含层数,但他们都只有一层输入和一层输出。

神经网络的各层又由不同数目的神经元组成,各层神经元数目随解决问题的不同而有不同的神经元个数。

6.3.2BP神经网络模型BP网络是在1985年由PDP小组提出的反向传播算法的基础上发展起来的,是一种多层次反馈型网络(图6.17),它在输入和输出之间采用多层映射方式,网络按层排列,只有相邻层的节点直接相互连接,传递之间信息。

在正向传播中,输入信息从输入层经隐含层逐层处理,并传向输出层,每层神经元的状态只影响下一层神经元的状态。

如果输出层不能得到期望的输出结果,则转入反向传播,将误差信号沿原来的连同通路返回,通过修改各层神经元的权值,使误差信号最小。

BP网络的学习算法步骤如下(图6.18):图6.17BP神经网络示意图图6.18BP算法流程图第一步:设置初始参数ω和θ,(ω为初始权重,θ为临界值,均随机设为较小的数)。

第二步:将已知的样本加到网络上,利用下式可算出他们的输出值yi,其值为岩溶地区地下水与环境的特殊性研究式中:xi为该节点的输入;ωij为从I到j的联接权;θj为临界值;yj为实际算出的输出数据。

第三步:将已知输出数据与上面算出的输出数据之差(dj-yj)调整权系数ω,调整量为ΔWij=ηδjxj式中:η为比例系数;xj为在隐节点为网络输入,在输出点则为下层(隐)节点的输出(j=1,2…,n);dj为已知的输出数据(学习样本训练数据);δj为一个与输出偏差相关的值,对于输出节点来说有δj=ηj(1-yj)(dj-yj)对于隐节点来说,由于它的输出无法进行比较,所以经过反向逐层计算有岩溶地区地下水与环境的特殊性研究其中k指要把上层(输出层)节点取遍。

误差δj是从输出层反向逐层计算的。各神经元的权值调整后为ωij(t)=ωij(t-1)+Vωij式中:t为学习次数。

这个算法是一个迭代过程,每一轮将各W值调整一遍,这样一直迭代下去,知道输出误差小于某一允许值为止,这样一个好的网络就训练成功了,BP算法从本质上讲是把一组样本的输入输出问题变为一个非线性优化问题,它使用了优化技术中最普遍的一种梯度下降算法,用迭代运算求解权值相当于学习记忆问题。

6.3.3BP神经网络模型在伤寒、副伤寒流行与传播预测中的应用伤寒、副伤寒的传播与流行同环境之间有着一定的联系。

根据桂林市1990年以来乡镇为单位的伤寒、副伤寒疫情资料,伤寒、副伤寒疫源地资料,结合现有资源与环境背景资料(桂林市行政区划、土壤、气候等)和社会经济资料(经济、人口、生活习惯等统计资料)建立人工神经网络数学模型,来逼近这种规律。

6.3.3.1模型建立(1)神经网络的BP算法BP网络是一种前馈型网络,由1个输入层、若干隐含层和1个输出层构成。

如果输入层、隐含层和输出层的单元个数分别为n,q1,q2,m,则该三层网络网络可表示为BP(n,q1,q2,m),利用该网络可实现n维输入向量Xn=(X1,X2,…,Xn)T到m维输出向量Ym=(Y1,Y2,…,Ym)T的非线性映射。

输入层和输出层的单元数n,m根据具体问题确定。

(2)样本的选取将模型的输入变量设计为平均温度、平均降雨量、岩石性质、岩溶发育、地下水类型、饮用水类型、正规自来水供应比例、集中供水比例8个输入因子(表6.29),输出单元为伤寒副伤寒的发病率等级,共一个输出单元。

其中q1,q2的值根据训练结果进行选择。表6.29桂林市伤寒副伤寒影响因素量化表通过分析,选取在伤寒副伤寒有代表性的县镇在1994~2001年的环境参评因子作为样本进行训练。

利用聚类分析法对疫情进行聚类分级(Ⅰ、Ⅱ、Ⅲ、Ⅳ),伤寒副伤寒发病最高级为Ⅳ(BP网络中输出定为4),次之的为Ⅲ(BP网络中输出定为3),以此类推,最低为Ⅰ(BP网络中输出定为1)(3)数据的归一化处理为使网络在训练过程中易于收敛,我们对输入数据进行了归一化处理,并将输入的原始数据都化为0~1之间的数。

如将平均降雨量的数据乘以0.0001;将平均气温的数据乘以0.01;其他输入数据也按类似的方法进行归一化处理。

(4)模型的算法过程假设共有P个训练样本,输入的第p个(p=1,2,…,P)训练样本信息首先向前传播到隐含单元上。

经过激活函数f(u)的作用得到隐含层1的输出信息:岩溶地区地下水与环境的特殊性研究经过激活函数f(u)的作用得到隐含层2的输出信息:岩溶地区地下水与环境的特殊性研究激活函数f(u)我们这里采用Sigmoid型,即f(u)=1/[1+exp(-u)](6.5)隐含层的输出信息传到输出层,可得到最终输出结果为岩溶地区地下水与环境的特殊性研究以上过程为网络学习的信息正向传播过程。

另一个过程为误差反向传播过程。

如果网络输出与期望输出间存在误差,则将误差反向传播,利用下式来调节网络权重和阈值:岩溶地区地下水与环境的特殊性研究式中:Δω(t)为t次训练时权重和阈值的修正;η称为学习速率,0<η<1;E为误差平方和。

岩溶地区地下水与环境的特殊性研究反复运用以上两个过程,直至网络输出与期望输出间的误差满足一定的要求。该模型算法的缺点:1)需要较长的训练时间。

由于一些复杂的问题,BP算法可能要进行几小时甚至更长的时间的训练,这主要是由于学习速率太小造成的,可采用变化的学习速率或自适应的学习速率加以改进。2)完全不能训练。

主要表现在网络出现的麻痹现象上,在网络的训练过程中,当其权值调的过大,可能使得所有的或大部分神经元的加权总和n偏大,这使得激活函数的输入工作在S型转移函数的饱和区,从而导致其导数f′(n)非常小,从而使得对网络权值的调节过程几乎停顿下来。

3)局部极小值。BP算法可以使网络权值收敛到一个解,但它并不能保证所求为误差超平面的全局最小解,很可能是一个局部极小解。

这是因为BP算法采用的是梯度下降法,训练从某一起点沿误差函数的斜面逐渐达到误差的最小值。

考虑到以上算法的缺点,对模型进行了两方面的改进:(1)附加动量法为了避免陷入局部极小值,对模型进行了改进,应用了附加动量法。

附加动量法在使网络修正及其权值时,不仅考虑误差在梯度上的作用,而且考虑在误差曲面上变化趋势的影响,其作用如同一个低通滤波器,它允许网络忽略网络上的微小变化特性。

在没有附加动量的作用下,网络可能陷入浅的局部极小值,利用附加动量的作用则有可能滑过这些极小值。

该方法是在反向传播法的基础上在每一个权值的变化上加上一项正比于前次权值变化量的值,并根据反向传播法来产生心的权值变化。

促使权值的调节向着误差曲面底部的平均方向变化,从而防止了如Δω(t)=0的出现,有助于使网络从误差曲面的局部极小值中跳出。

这种方法主要是把式(6.7)改进为岩溶地区地下水与环境的特殊性研究式中:A为训练次数;a为动量因子,一般取0.95左右。

训练中对采用动量法的判断条件为岩溶地区地下水与环境的特殊性研究(2)自适应学习速率对于一个特定的问题,要选择适当的学习速率不是一件容易的事情。

通常是凭经验或实验获取,但即使这样,对训练开始初期功效较好的学习速率,不见得对后来的训练合适。

所以,为了尽量缩短网络所需的训练时间,采用了学习速率随着训练变化的方法来找到相对于每一时刻来说较差的学习速率。

下式给出了一种自适应学习速率的调整公式:岩溶地区地下水与环境的特殊性研究通过以上两个方面的改进,训练了一个比较理想的网络,将动量法和自适应学习速率结合起来,效果要比单独使用要好得多。

6.3.3.2模型的求解与预测采用包含了2个隐含层的神经网络BP(4,q1,q2,1),隐含层单元数q1,q2与所研究的具体问题有关,目前尚无统一的确定方法,通常根据网络训练情况采用试错法确定。

在满足一定的精度要求下一般认小的数值,以改善网络的概括推论能力。

在训练中网络的收敛采用输出值Ykp与实测值tp的误差平方和进行控制:岩溶地区地下水与环境的特殊性研究1)将附加动量法和自适应学习速率结合应用,分析桂林市36个乡镇地质条件各因素对伤寒副伤寒发病等级的影响。

因此训练样本为36个,第一个隐含层有19个神经元,第二个隐含层有11个神经元,学习速率为0.001。A.程序(略)。B.网络训练。

在命令窗口执行运行命令,网络开始学习和训练,其学习和训练过程如下(图6.19)。图6.19神经网络训练过程图C.模型预测。

a.输入未参与训练的乡镇(洞井乡、两水乡、延东乡、四塘乡、严关镇、灵田乡)地质条件数据。b.预测。程序运行后网络输出预测值a3,与已知的实际值进行比较,其预测结果整理后见(表6.30)。

经计算,对6个乡镇伤寒副伤寒发病等级的预测符合率为83.3%。表6.30神经网络模型预测结果与实际结果比较c.地质条件改进方案。

在影响疾病发生的地质条件中,大部分地质条件是不会变化的,而改变发病地区的饮用水类型是可以人为地通过改良措施加以实施的一个因素。

因此,以灵田乡为例对发病率较高的乡镇进行分析,改变其饮用水类型,来看发病等级的变化情况。

表6.31显示,在其他地质条件因素不变的情况下,改变当地的地下水类型(从原来的岩溶水类型改变成基岩裂隙水)则将发病等级从原来的最高级4级,下降为较低的2级,效果是十分明显的。

因此,今后在进行伤寒副伤寒疾病防治的时候,可以通过改变高发区饮用水类型来客观上减少疫情的发生。

表6.31灵田乡改变饮用水类型前后的预测结果2)选取桂林地区1994~2000年月平均降雨量、月平均温度作为输入数据矩阵,进行样本训练,设定不同的隐含层单元数,对各月份的数据进行BP网络训练。

在隐含层单元数q1=13,q2=9,经过46383次数的训练,误差达到精度要求,学习速率0.02。A.附加动量法程序(略)。B.网络训练。

在命令窗口执行运行命令,网络开始学习和训练,其学习和训练过程如下(图6.20)。C.模型预测。a.输入桂林市2001年1~12月桂林市各月份的平均气温和平均降雨量。预测程度(略)。b.预测。

程序运行后网络输出预测值a2,与已知的实际值进行比较,其预测结果整理后见(表6.32)。经计算,对2001年1~12月伤寒副伤寒发病等级进行预测,12个预测结果中,有9个符合,符合率为75%。

图6.20神经网络训练过程图表6.32神经网络模型预测结果与实际值比较6.3.3.3模型的评价本研究采用BP神经网络对伤寒、副伤寒发病率等级进行定量预测,一方面引用数量化理论对不确定因素进行量化处理;另一方面利用神经网络优点,充分考虑各影响因素与发病率之间的非线性映射。

实际应用表明,神经网络定量预测伤寒、副伤寒发病率是理想的。其主要优点有:1)避免了模糊或不确定因素的分析工作和具体数学模型的建立工作。2)完成了输入和输出之间复杂的非线性映射关系。

3)采用自适应的信息处理方式,有效减少人为的主观臆断性。虽然如此,但仍存在以下缺点:1)学习算法的收敛速度慢,通常需要上千次或更多,训练时间长。2)从数学上看,BP算法有可能存在局部极小问题。

本模型具有广泛的应用范围,可以应用在很多领域。从上面的结果可以看出,实际和网络学习数据总体较为接近,演化趋势也基本一致。

说明选定的气象因子、地质条件因素为神经单元获得的伤寒、副伤寒发病等级与实际等级比较接近,从而证明伤寒、副伤寒流行与地理因素的确存在较密切的相关性。

BP神经网络在地面沉降预测中的应用

地面沉降是多种自然和人为因素共同作用的结果。

各种要素发生作用的时空序列、影响强度和方向以及它们之间的关系处于不断变化之中,同时各因素的变化及其影响并不是单方面的,各变量之间相互形成制约关系,这使得地面沉降过程极具复杂性。

因此,要求预测模型能以在现有资料、信息基础,准确反映研究区的自然背景条件、地下水开采行为与地面沉降过程之间的复杂联系,并能识别和适应不同影响因素随时间发生的改变。

BP神经网络作为一个非线性系统,可用于逼近非线性映射关系,也可用于逼近一个极为复杂的函数关系,是解释和模拟地面沉降等高度复杂的非线性动力学系统问题的一种较好的方法。

8.4.1.1训练样本的确定根据第4章的分析,影响研究区域地面沉降过程的变量包含着复杂的自然和人为因素,超采深层地下水是造成研究区1986年以后地面沉降的主要原因,深层地下水的开采量和沉降监测点附近的各含水层组水位均与地面沉降有着很好的相关性。

本区第四系浅层地下水系统(第Ⅰ含水层组)除河漫滩地段,一般为TDS都高于2g/L的咸水,因此工农业用途较少,水位一般保持天然状态,在本次模型研究中不予考虑。

由于区内各地面沉降监测点的地面高程每年测量一次,为了保持与地面沉降数据的一致性,使神经网络模型能准确识别地下水开采与地面沉降之间的关系,所有数据均整理成年平均的形式。

本章选择了控沉点处深层地下水系统的年均水位和区域地下水开采量作为模型的输入变量,考虑到水位和开采量的变化与沉降变形并不同步,有明显的滞后性存在,本章将前一年的开采量和年均水位也作为输入,故模型的输入变量为四个。

以收集到的区内每个地面沉降监测点的年沉降量作为模型的输出变量,通过选择适合的隐含层数和隐层神经单元数构建BP模型,对地面沉降的趋势进行预测。

本次收集到的地面沉降监测点处并未有常观孔的水位数据,如果根据历年实测等水位线推算,会产生很大的误差,导致预测结果的不稳定性。

基于已经建立好的Modflow数值模型,利用ProcessingModflow软件里的水井子程序包,在控沉点处设置虚拟的水位观测井,通过软件模拟出的不同时期的水位,作为地面沉降神经网络模型的输入层,从而避免了以往的将各含水层组平均水位作为模型输入所带来的误差[55]。

考虑到深层地下水系统各含水层组的水力联系较为密切,本次在每个地面沉降监测点处只设置一个水位观测井,来模拟深层地下水系统的水位。

水井滤水管的起始位置与该点含水层的位置相对应,即滤水管的长度即为含水层的厚度。观测井在模型中的位置如8.31所示,绿色的点即为虚拟水位观测井。

从图中可以看出6个沉降点在研究区内分布均匀,处于不同的沉降区域,有一定的代表性,通过对这6个点的地面沉降进行预测,可以反映出不同区域的沉降趋势。数值模型模拟得到的各沉降点年均水位如图8.32所示。

图8.31控沉点虚拟水井在Modflow数值模型中的分布示意图图8.32模拟得到的各沉降点处虚拟水井年均水位动态8.4.1.2样本数据的预处理由于BP网络的输入层物理量及数值相差甚远(不属于一个数量级),为了加快网络收敛的速度,在训练之前须将各输入物理量进行预处理。

数据的预处理方法主要有标准化法、重新定标法、变换法和比例放缩法等等。

本章所选用的是一种最常用的比例压缩法,公式为[56]变环境条件下的水资源保护与可持续利用研究式中:X为原始数据;Xmax、Xmin为原始数据的最大值和最小值;T为变换后的数据,也称之为目标数据;Tmax、Tmin为目标数据的最大值和最小值。

由于Sigmoid函数在值域[0,0.1]和[0.9,1.0]区域内曲线变化极为平坦,因此合适的数据处理是将各输入物理量归至[0.1,0.9]之间。

本章用式(8.7)将每个样本输入层的4个物理量进行归一化处理变环境条件下的水资源保护与可持续利用研究处理后的数据见表8.14。

表8.14BP神经网络模型数据归一化表续表8.4.1.3网络结构的确定BP神经网络的建立,其重点在于网络结构的设计,只要隐层中有足够多的神经元,多层前向网络可以用来逼近几乎任何一个函数。

一般地,网络结构(隐层数和隐层神经元数)和参数(权值和偏置值)共同决定着神经网络所能实现的函数的复杂程度的上限。结构简单的网络所能实现的函数类型是非常有限的,参数过多的网络可能会对数据拟合过度。

本章将输入样本的个数定为4个,输出样本为1个。

但是对于隐含层数及隐含层所含神经元个数的选择,到目前为止还没有明确的方法可以计算出实际需要多少层或多少神经元就可以满足预测精度的要求,在选择时通常是采用试算的方法[56,57]。

为了保证模型的预测精度和范化能力,根据收集到的资料的连续性,本次研究利用1988~2002年15组地面沉降历史观测数据和对应的当年及前一年的开采量、年均水位组织训练,以2003年和2004年的实测地面沉降数据校验模型的预测能力,尝试多种试验性网络结构,其他模型参数的选择采取保守方式,以牺牲训练速度换取模型稳定性。

以2003年和2004年的平均相对误差均小于20%作为筛选标准,最终选择三层BP网络作为模型结构,隐层神经元的个数设置为3。网络结构如图8.33所示,参数见表8.15。

表8.15BP网络模型参数一览表图8.33神经网络模型结构图8.4.1.4网络的训练与预测采用图8.33确定的网络结构对数据进行训练,各个沉降点的训练过程和拟合效果如图8.34、图8.35所示。

从图8.35可以看出,训练后的BP网络能很好地逼近给定的目标函数。说明该模型的泛化能力较好,模拟的结果比较可靠。

通过该模型模拟了6个沉降点在2003和2004年的沉降量(表8.16),可以看出2003年和2004年模拟值和实际拟合较好,两年的平均相对误差均小于20%,说明BP神经网络可以用来预测地面沉降的趋势。

表8.16监测点年沉降量模拟误差表图8.34各沉降点训练过程图8.4.1.5模型物理意义探讨虽然现今的BP神经网络还是一个黑箱模型,其参数没有水文物理意义[58]。

但从结构上分析,本章认为地面沉降与ANN是同构的。

对于每个控沉点来说,深层地下水系统的开采量和含水层组的水位变化,都会引起地层应力的响应,从而导致整体的地面标高发生变化,这一过程可以与BP神经网络结构进行类比。

其中,深层地下水系统的3个含水层组相当于隐含层中的3个神经元,各含水层组对地面沉降的奉献值相当于隐含层中人工神经元的阈值,整体上来说,本次用来模拟地面沉降的BP神经网络结构已经灰箱化(表8.17)。

图8.35各监测点年沉降量神经网络模型拟合图表8.17BP神经网络构件物理意义一览表。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值