预 测 模 型
最近几年,在全国大学生数学建模竞赛常常出现预测模型或是与预测有关的题目,例如疾病的传播,雨量的预报等。什么是预测模型?如何预测?有那些方法?对此下面作些介绍。
预测作为一种探索未来的活动早在古代已经出现,但作为一门科学的预测学,是在科学技术高度发达的当今才产生的。“预测”是来自古希腊的术语。我国也有两句古语:“凡事预则立,不预则废”,“人无远虑,必有近忧”。卜卦、算命都是一种预测。中国古代著名著作“易经”就是一种专门研究预测的书,现在研究易经的人也不少。古代的预测主要靠预言家,即先知们的直观判断,或是借助于某些先兆,缺乏科学根据。预测技术的发展源于社会的需求和实践。20世纪初期风行一时的巴布生图表就是早期的市场预测资料,哈佛大学的每月指数图表为商品市场、证券市场和货币市场预测提供了依据。然而这些预测都未能揭示1929-1930年经济危期的突然暴发,使工商界深感失望。尔后,经济学家们从挫折中吸取了教训,采用趋势和循环技术对商业进行分析和预测,科学预测也因此开始萌生。20世纪30年代凯思斯提出政府干预和市场机制相结合的经济模型,1937年诺依曼又提出了扩展经济模型,对近代经济模型产生重要的影响,科学的经济和商业预测也就步入发展阶段。
技术预测开始于二次世界大战后的20世纪40年代,直到20世纪50年代未才广泛应用于工农业和军事部门。由于社会、科学技术和经济的大量需求,预测技求才成为一门真正的科学,预测未来是当代科学的重要任务。
20世纪以来,预测技术所以得以长足进步,一方面,与社会需求有很大关系,另一方面通过社会实践和长期历史验证,表明事物的发展是可以预测的。而且借助可靠的数据和科学的方法,以及预测技术人员的努力,预测结果的可靠性和准确性可以达到很高的程度,这也是预测技术迅速发展的另一个重要原因。
科学技术、经济和社会预测的应验率也是很高的。维聂尔曾预言20世纪是电子时代,法国思想家迈希尔18世纪末到19世纪初对巴黎未来几百年的发展进行了预测。从1950年的实际情况分析,他的预测中有36%得到证实,28%接近实现,只有36%是错误的。法国哲学家和数学家冠道塞在法国大革命时期曾采用外推法进行了一系列社会预测,其中75%得到证实。沙杰尔莱特1901年在《二十世纪的发明》一书中的一些预测,其中64%得到证实。凯木弗尔特在1910年和1915年公布的25项预测中,到1941年只有3项未被证实,3项是错误的。我国明朝开国功臣刘基就预测将来是天上铁鸟飞,地上铁马跑,那时还没有火车、飞机。
预测的目的在于认识自然和社会发展规律,以及在不同历史条件下各种规律的相互作用,揭示事物发展的方向和趋势,分析事物发展的途径和条件,使人们尽早地预知未来的状况和将要发生的事情,并能动地控制其发展,使其为人类和社会进步服务。因而预测是决策的重要的前期工作。决策是指导未来的,未来既是决策的依据,又是决策的对象,研究未来和预测未来是实现决策科学化的重要前提。预测和决策是过程的两个方面,预测为决策提供依据,而预测的目的是为决策服务,所以不能把预测模型和决策模型截然分开,有时也把预测模型称为决策模型。
一 预测的前期准备工作
为保证预测结果的精确度,预测之前必须做一系列的准备工作:
(一)数据的准备
数据是预测工作的前提和重要依据,预测不能是臆造和空想,任何事物的发展都有一定的规律,认真研究预测对象并充分考察预测对象所处的环境,以系统分析的方法对过去和现在的数据进行总结,从中找出规律,便可科学地推断未来。
数据在预测中主要有两个作用:(1)、用于确定由某些历史观察点组成的行为模型;(2)、在因果模型预测中确定自变量的未来值。
预测的初始阶段,首先是从事数据的收集、整理、加工和分析,为建模创造良好的条件。
(Ⅰ)数据的收集和整理
按时态分,数据可分为历史数据和现实数据;按预测对象分,可分为内部数据和外部数据;就收集的手段分,可分为第一手数据和第二手数据。
第一手数据,包括以各种形式初次收集的数据。收集第一手数据的途径包括:抽样调查,连续调查,或全面调查。在预测的定性方法中常常需要第一手数据,例如特尔斐法的第一个阶段就是收集第一手数据。由于获取第一手数据的费用较高,时间较长,所以定量方法常采用第二手数据。
第二手数据多为已经公布和发表的资料,易于获取,代价低,数据精度也有一定的保证。其缺点是数据可能不能直接适用于预测情况。因此,常常需要对已公布的数据进行修正和处理,使其适应于预测需要。
无论是第一手数据还是第二手数据,都可能是混乱的、无序的、彼此间孤立的。预测人员都应将原始数据按“单元”或“类别”整理和集中,以便使其成为内容上完整、有序、系统,形式上简明统一的数据。
(Ⅱ)数据的分析和处理
建模不仅需要大量的数据,同时数据必须可靠,并适合建模的要求。这些数据虽然是历史的客观写照,但有可能是失真的数据。对于失真的数据,以及不符合建模的数据,必须通过分析,加以适当处理。
1.处理的原则
(1) 准确,处理后的数据能正确反映事物发展的未来趋势和状况;
(2)及时,数据的处理要及时;
(3)适用,处理的数据能满足建模的需要;
(4)经济,要尽量减少数据处理的费用,以降低预测成本;
(5) 一致,指处理的数据在整个使用期间内必须是一致的,具有可比较性。
2.处理方法
(1)判别法
通过对历史数据的判断,选择其中可代表整个预测过程中很可能发生的模式的数据作为建模数据;
(2)剔除法
如果数据量比较大,且非必须具备连续的数据量,这时可剔除数据中受随机干扰的异常值;
(3)平均值法
在数据比较少或需要连续数据时,则可采取平均值法对数据进行处理。
对于时间序列数据,可用异常值前后两期数据的算术平均值或几何平均值对异常值进行修正,即
通常当历史数据的发展趋势呈线性时,取算求平均值,当发展趋势呈非线性时,取几何平均值。
在利用因果关系建立数学模型时,为去掉偶然因素对建立模型的影响,可采用下面的计算方法对统计数据中的异常数据加以修正:
当x与y之间为线性因果关系时,取
当x与y之间为非线性因果关系时,取
式中
为有随机因素影响时期因变量的估计值,
是与之对应的自变量;
是与
在数值上相差最小的两个自变量,且
分别是与
相对应的因变量统计值
(4)拉平法
由于条件发生变化,常常使一些厉史数据不能反映现时的情况,例如,大型钢铁厂、化肥厂、或油气田的建成投产或开发,可以使产量猛增,这时历史数据将发生突变,出现一个转折,如用这类数据建模,则需要处理。这时拉平法是一种较好的方法。它的原理是对转折点前的数据加一个适当的量值,使其与折点后的数据走向一致。
(5)比例法
销售条件与环境的变化常常会引起一个企业产品市场销售比例的改变。当比例变化较大时,说明销售条件与环境对销售的影响己超过其他因素对销售的影响,也说明以前的销售统计数据所体现出的销售发展规律不再适用之于目前的情况了。如果仍然利用这些数据建立预测模型,将无法体现销售条件和环境变化后的销售量变化的规律,用这样的模型进行预测,将会造成较大的误差。因此,如果还想利用这些数据建立模型,进行预测,就应该把它们处理成能体现条件与环境发生变化之后的情况的数据。对于这类数据,比例法就是一种比较有效的处理方法。
例如,某一生产生产资料的大型企业,80年代中期前销售额一直呈递增趋势,而80年代中期后,受压缩基建规模的影响,销售量突然下降。又如轿车在80年代中期以前一直是紧俏商品,后因国家实行控购政策,销售量一度急剧下降。这时,对上述某一生产资料销售量或对轿车销售量进行预测,都要考虑政策因素的影响,对于前期数据采用比例法进行适当修正(当时是计划经济,私人买不起轿车。买轿车的都国家机关、企事业单位。)
当然比例法不仅仅限于对数值向下调,也适合向上调。比例法数据处理公式为
(6)移动平均和指数平滑法
如果原始数据总体走向具有一定规律性,但因受随机因素干扰,数据离散度很大,采用平均值法也难以处理。这时可采用一次、二次、甚至三次移动平均和指数平滑对数据进行平滑,用平滑的数据建模。
在分解预测时,为处理季节数据,则必须采用高次幂的移动平均法,对数据平滑。
(7)差分法
有些模型,例如鲍克斯-詹金斯模型只能处理平稳数据,如果原始数据为非平稳数据,则需釆取差分处理。差分有三种主要类型:前向差分、后向差分、中心差分。
前向差分:在处理时间数列时,一阶前向差分定义为
一阶前向差分是当时间由t变到t+1时,
的改变量。
二阶前向差分定义为
同样,可以定义高阶差分。
后向差分:在处理时间数列时,一阶后向差分定义为
一阶后向差分是当时间由t递推到t-1时,
的改变量。
二阶后向差分定义为
同理可以定义高阶后向差分
中心差分:在处理时间数列时,一阶中心差分定义为
二阶中心差分定义为
同理可以定义高阶中心差分。
在处理时间数列时,主要应用后向差分。一次多项式数据通过一阶差分就可转换为平稳数据,二次多项式和三次多项式数据分别通过二阶和三阶差分可转换为平稳数据,而三次以上的高次多项式在应用中很少采用。
(Ⅲ)数据的内涵及数量
在预测过程中,由于预测对象不同,预测内容不同,以及预测期限不同,所需的数据内涵及数量也不同。
经济预测的数据主要包括:
(1)国民经济总产值及各部类的分配情况;
(2)各行业的生产规模和生产能力以及技术水平;
(3)政府的经济政策及产业政策;
(4)生产力布局;
(5)人口发展趋势及就业情况;
(6)国民经济投资及分配;
(7)国际环境及变化趋势。
市场需求预测需要的数据主要有:
(1)人口及人均收入;
(2)国民收入的增长及分配情况;;
(3)与产品消费直接有关的政府政策和法规,如进口限制、进口税、销售稅和其它税费、信贷管理及外费管理等。
(4)一段时期内产量和产值的生产能力;
(5)一段时期内的产品的进口量;
(6)代用品或近似代用品的产量和进口量;
(7)与有关新投入的产品前后关联度高的产品的产量;
(8)国家计划规定的产品或代用品的生产指标;
(9)产品出口量;
(10)个人或集体消费者们的实贯或嗜好;
(11)法律方面的资料。
二 专家的选择和专家组的组成
在现实生活中,有时不得不在不确定的条件下作出决策,这是因为或者决策的制约因素过多,或者其中某些因素无法度量。我们常称之为定性因素。为这类决策提供预测,因为没有严格的理论依据,定量方法无法采用。在这种情况下,借助专家的经验判断则有可能作出定量方法难以得到的科学预测。专家的素质取决于他的知识、经验、智慧和对未来的预测能力,以及其他一些因素。实践表明,在当今如此复杂多变的情况下,任何个人或一个专家都难于作出较精确的预测。必须集中多方专家的意见才能作出科学的预测。因此选择专家组成员是预测能否成功的重要环节,是预测要做的首要工作。应邀的专家要具有广泛的知识,对预测所涉及主题的各领域应有较深的造诣。选择专家不能简单从事,不能事先未经征得同意就将调查表发给拟邀请的专家。因为有的专家可能不愿意参加这项预测。那么选择专家应如何进行呢?
(一)什么叫专家
在组织专家预测时,专家是个广义的概念,拟选的专家不能仅仅局限于一个领域的权威,因为权威人数是有限的。特尔斐法拟选的专家是指在该领域从事10年以上工作的专业干部。
(二)怎样选择专家
怎样选择专家是由预测任务决定的。如果要求比较深入地了解部门的历史情况和技术政策,或涉及到本部门的机密问题,则最好从本部门选择专家。从本部门选择专家比较简单,既有档可查,又熟悉干部的现实情况。如果预测任务仅仅关系到事物的发展,则最好同时从部门内外挑选。从外部选择专家,大体按以下顺序进行:
(1)编制征求专家应答问题一览表;
(2)根据预测问题,编制所需专家类型一览表;
(3)将问题一览表发给每个专家,询问他们能否坚持参加规定问题的预测。
(4)确定每个专家从事预测所消耗的时间和经费。
从外部选择专家比较困难,一般要经过几轮。首先要收集本部门职工比较熟悉的专家名单,而后再从有关期刊和出版物中物色一批知名专家。以这两部分专家为基础,将调查表发给他们,征求意见,同时要求他们再推荐1-2名有关专家。预测领导小组从推荐的专家名单中,再选择一批有2人以上推荐的专家。
(三)选择什么样的专家
在选专家的过程中,不仅要注意选择精通技术、有一定名望、有学科代表性的专家,同时还需要选择相关学科、边缘学科、社会学和经济学等方面的专家。选择承担领导职务的专家固然重要,但要考虑他们是否有足够的时间认真填写调查表。经验表明,一个身居要职的专家匆忙填写的调查表,其参考价值还不如一个专事某项工作的一般专家认真填写的调查表。再者,乐于承担任务,并坚持始终,也是选择专家时要注意的。
(四)专家组人数
预测小组人数视预测向题规模而定。人数太少,限制学科代表性,并缺乏权威;人数太多,难于组织,对结果处理也比较复杂。预测的精度与人数的函数关系是,当人数较少时,随着人数的增加预测精度很快提高。但人数接近15时,进一步增加人数对预测精度影响不大。小组人数一般以15-50人为宜。当然对于一些重大问题,专家人数也可扩大到100名以上。在确定专家人数时,值得注意的是,有的专家即使同意参加预测,因为种种原因也不见得每轮必答,有时甚至中途退出,因而预选人数要多于规定人数。
定性预测方法尽管有时并不需要外界输入数据,即使有数据要求,精度要求也不严格,但是这并不意味着定性预测方法的精度不如定量方法。有时定性预测方法所得结果,其精度还高于定量方法。这是因为每一个专家都是一个数据库,都存贮着大量与预测有关的数据,而其中相当部分还是社会未发表的数据。预测小组就可利用专家提供的数据创造一本脚本,用来描述过去发生了什么事情,未来将发生什么事情。脚本不仅可以真实地反映一组完整的描述真实事件的数据,同时这组数据可以同传统形式经常采用的定量变量数据媲美。
三 预测的数学准备
在预测过程中需要很多数学知识,主要有微分方程、概率与数理统计、线性规划和非线性规划等等。但使用最多的是统计学的相关知识:常用的统计量、参数的估算、假设检验、区间估计等。这些我们就不做介绍了。
四 实用预测方法
(一)定性预测方法
预测方法很多,多达200多种,但常用的不过30多种,最常用的只有10多种。预测方法的分类没有统一的标准和体系。前苏联的专家把预测方法分为两类:启发式预测(专家预测)和数学模型预测。而美国有的专家把预测分为定性方法和定量方法,有的专家把预测方法分为定性预测、定量预测、定时预测、概率预测四类。我国多把预测分为定性和定量两种。下面是我国目前常用几种预测方法:
定性预测方法:主要有特尔斐法、目标预测法;
定量预测方法:主要有时间序列模型,因果关系模型。
而时间序列模型包含移动平均法、指数平滑法、分解预测法、鲍克斯-詹金斯模型。
因果关系模型包含趋势外推法、回归分析法、数量经济模型、投入产出模型、灰色模型、系统模型。
每种方法都有它的适用范围和特点,预测程序,预测模型。
下面重点介绍使用最多、应用最广的特尔斐法,至于其它各种方法请大家自行查看相关的书籍。
特尔斐法
特尔斐法是在专家会议预测法的基础上发展起来的,由美国兰德公司于1964年发明并首先用于技术预测。
专家会议法虽然可以通过会议使专家之间广泛交流意见,互相启发,为重大决策提供预测依据,但专家会议法也有三个重大缺点,即:
(1)易于屈服于权威或多数人的意见;
(2)易受劝说性意见的影响;
(3)会出现因自尊心影响而不愿公开修正已发表的、然而是不完全正确、甚至是错误的意见。这就使专家会议作出的预测有时是片面的,甚至有可能是错误的。特尔斐法克服了以上缺点,它是将所要预测的问题以信函的方式寄给专家,将回函的意见综合、整理,又匿名反馈给专家征求意见,如此反复多次,最后得出预测结果。
(一) 特点及适用范围
特尔斐法有三个特点:
1. 匿名性 由于特尔斐法采用匿名函询征求意见,应邀参加预测
预测方法分类表
的专家互不相见,可消除心理因素的影响,专家可参照前一轮预测结果修改自己的意见,而元需作公开说明。
2. 轮间反馈可沟通性
特尔斐法一般要经过四轮,每一轮的汇总意见又匿名反馈给专家,便于互相沟通和启发。
3. 预测结果的统计特性
特尔斐法采用统计方法对结果进行定量处理,能科学地综合专家们的预测意见。
特尔斐法是传统定性分析的一个飞跃,它突破了单纯的定性或定量分析的界限,为科学、合理地制定决策开阔了思路。由于它能够对未来发展中可能出现的前景作出概率描述,因而为决策者提供了多方案选择的可能性。
采用特尔斐法不仅可以从事技术预测,同时可以从事经济、社会预测;不仅可以从事短期预测,同时可以从事长期预测;不仅可以预测事物的量变过程,同时可以预测事物的质变过程。因而近几十年来,特尔斐法已经成为一种广为应用的预测方法。在长远规划者和决策者心目中,特尔斐法享有很高威望,并逐渐成为一种重要的规划决策工具。
(二)预测程序
应用特尔斐法进行预测,主要包括四个阶段:(1)建立预测领导小组,编制预测日程计划;(2)选择专家;(3)轮间反馈;(4)编写预测报告。由于预测结果的准确程度在很大的程度上依赖于专家的知识广度、深度和经验,因此,如何选择专家是很重要的。具体的预测程序见下图
(三)预测模型
应用特尔斐法需要作归纳、整理等很多工作,无需建立复杂的数学模型。
在采用特尔斐法进行时间预测时,一般用中位数代表专家集中意见,用上下四分点代表专家意见的离散程度。中位数受项目多少的影响,如果将专家的预测结果在水平轴上按时间的先后顺序排列,则位居中央将全变量分为二等分的年份为中位数。变量的项数为奇数时,第(n+1)/2项为中位数。项数为偶数时,位居中央两项的平均数为中位数。
计算中位数的公式为
其中: n是专家预测的数据个数(该数列是按从小到大顺序排列的)
用上下四分点表示预测区间时,公式为
上式中:当n为奇数时,m=(n-1)/2
当n为偶数时,m=n/2
人们常常用组合距,即最大预测值与最小预测值之差表示预测值的变化幅度,而多数用上下四分点的间距表示预测值的变化幅度。
例 1 某单位釆用特尔斐法预测我国“九五”期间的轿车需求量,经函询,20位专家的预测值如下表(1),试分析该预测结果。
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
50 | 65 | 53 | 56 | 64.5 | 50 | 56 | 58 | 59 | 62 |
11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
60 | 53 | 56 | 54 | 61 | 59 | 59 | 60 | 50 | 51 |
表 (1)
首先,将专家预测结果按从小到大顺序排列:
A(1)=50 A(2)=50 A(3)=50 A(4)=51 A(5)=53
A(6)=53 A(7)=54 A(8)=56 A(9)=56 A(10)=56
A(11)=58 A(12)=59 A(13)=59 A(14)=59 A(15)=60
A(16)=60 A(17)=61 A(18)=62 A(19)=64.5 A(20)=65
n=20为偶数,则
多方案相对重要性预测近年来应用较广,其专家集中意见用算术平均值表示,公式为
专家意见的离散程度用变异系数表示,公式为
式中:
例2 用特尔斐法聘请五位专家对4种科研方案进行优选排序,评价结果如下表(2)
科研方案优选预测值
方案 专家 | A | B | C | D | ||||
分值 | 等级 | 分值 | 等级 | 分值 | 等级 | 分值 | 等级 | |
1 | 50 | 2 | 100 | 1 | 30 | 3 | 20 | 4 |
2 | 60 | 3 | 90 | 1 | 70 | 2 | 10 | 4 |
3 | 50 | 2 | 100 | 1 | 20 | 4 | 40 | 3 |
4 | 70 | 3 | 80 | 2 | 90 | 1 | 20 | 4 |
5 | 90 | 1 | 70 | 2 | 50 | 3 | 10 | 4 |
表(2)
用统计方法分析的意见。
(1) 首先求各方案分数的算术平均值。
根据各方案的平均值,可得到按重要程度排序的结论为B、A、C、D。
(2) 计算各方案专家意见的变异系数。为求得各方案变异系数,需先计算各方案的方差及标准差,以反映专家意见的离散程度:
同理
各方案的变异系数为
可见专家意见对B方案协调程度最高,其余依次为A、D、C方案。
其次常用的定性方法还有目标预测法。目标预测法又称规范性预测法,是美国霍尼维尔公司首先开发并投入使用的,具有重要实用价值,但目前在我固应用的示例还很少。
目标预测法的突出特点是:它不是探索在什么时间将达到什么目标,而是在目标已定的情况下,研究如何实现既定目标。美国霍尼维尔公司最早成功地利用这种方法建立了一个PATTERN模型,用于研究阿波罗登月课题。阿波罗登月日期,美国政府在考虑多种因素情况下,经过多次预测和评估己经确定。所以PATTERN模型的任务不是探索阿波罗计划能否实现或何时实现,而是如何实现,以便按期登月。
这种方法对我国尤为实用。这是因为,很多领域的宏观或中观目标,都是由各级主管部门确定的,例如党的十二大确定了2000年国民生产总值比1980年翻两番的宏伟目标,同时,粮食、钢材、原煤产量和发电量也都有了明确目标。有的微观目标也是主管部门决定的,如开发什么产品,获得多少收益等。在这种情况下,探索实现目标的最佳途径是极为重要的。由于目标预测法是研究实现目标的步骤、措施,因而目标预测也可称为目标决策,可以说是建立决策实施保证体系的一种重要方法。由于时间关系,这里就不做介绍了。
(二)定量预测法
定量预测法主要有时间序列模型、因果关系模型。
时间序列模型
时间序列模型主要研究事物的自身发展规律,借以预测事物的未来趋势。主要方法有移动平均、指数平滑、分解预测、鲍克斯--詹金斯模型、多变量模型以及历史类推法等。
一. 特点和应用范围
时间序列一般指一组按时间顺序排列的数据,展示了研究对象在一定时期的发展变化过程。时间序列模型,就是根据预测对象时间序列的变化特征,研究事物自身的发展规律,探讨未来发展趋势,是一种重要的定量预测方法,包括多种模型,主要适用于经济预测、商业预测、需求预测、库存预测等,预测期限主要为中、短期,不适用于有拐点的长期预测。
二 . 预测程序
此处介绍的预测程序为定量方法预测程序,既适用于时间序列模型,又适用于因果关系模型,详见下图。
定量预测程序图
三 . 预测方法及数学模型
(一)移动平均值模型
移动平均法是一种最简单的适应模型,是在算术平均的基础上发展起来的一种预测方法。
算术平均虽能代表一组数据的平均水平,但它不能反映数据的变化趋势,而原始数据虽然存在某种趋势,但数据可能是零散的或杂乱无章的,无法直接加以分析。移动平均法克服了上述弱点,其基本方法是,选一个固定的周期数,对数据进行平均,每递推一个周期就加上后一个数据,舍去初始数据,依次类推,直至把数据处理完毕。以n=5为例:
表示第五、第六个周期的一次移动平均值,依次类推。若移动平均的周期为N,则可得到计算移动平均值的一般公式:
其中,
表示第t期的一次移动平均值
可见,移动平均法实际上是对于某一t期数据,取前N个数据进行平均,N个数权数相同,而其它数据的权数等于零。这样,经过移动平均,将消除数据列中异常的因素,对数据进行修匀。一般情况下,如果数据没有明显的周期变化和趋势变化,可用第t期的一次移动平均值作为t+1期的预测值,即
其一般公式为
表(3)中的第一列和第二列,即是原始数据与一次移动平均值的对比。如取N=3的3期移动平均,则第三期数据的移动值为5766.33,是由(5600+5796+5930)/3得到的。如用于预测,它可以作为第4期的预测值。
在一次移动平均值的基础上,应用移动平均的原理,还可以进行二次甚至多次的移动平均,二次移动平均,就是以一次移动平均值为原始数据,再进行一次移动平均,仍以N=5为例:其公式为
式中:
表示第9期的二次移动平均值,其一般公式为
二次移动平均使原始数据得到了进一步修匀,使其显现线性趋势。表(3)中的第三列数据为N=3的二次移动平均值。
序 列 | 原 始 数 据 | 一次移动平均值 | 二次移动平均值 |
1 2 3 4 5 6 7 8 9 10 11 | 5600 5796 5930 6092 6257 6567 6851 7141 7436 7738 8045 | 5775.3 5939.3 6093.0 6305.3 6558.3 6853.0 7142.7 7438.3 7739.7 | 5935.9 6112.5 6318.9 6572.2 6851.3 7144.7 7440.2 |
移动平均值 表(3)
在二次移动平均值的基础上,可建立线性模型:
式中:τ—预测超前期数
通过查表(多项式模型参数估算公式)可知:
对于表(3)中的数据,如以11期数据预测12期值,当取N=3时,则有:
预测方程为
使用移动平均法,最重要的是移动周期N的选择。因为
式中:
——移动平均值方差
——原始数据点方差
N——数据点数
也就是说,移动平均修匀后的方差,随着N的加大而减少。也就是N越大,对原始数据修匀能力越强。下表(4)数据可清楚反映这一规律。
(1) 月 份 | (2) 期 数 | (3) 实际销售额 | (4) 三个月移动平均值 | (5) 五个月移动平均值 |
1 2 3 4 5 6 7 8 9 10 11 12 | 1 2 3 4 5 6 7 8 9 10 11 12 | 200.0 135.0 195.0 197.5 310.0 175.0 155.0 130.0 220.0 277.0 235.0 —— | —— —— —— 176.7 175.8 234.2 227.5 213.3 153.3 168.3 209.2 244.2 | —— —— —— —— —— 207.5 202.5 206.5 193.5 198.0 191.4 203.5 |
(某日用品电器销售额的移动平均预测)表(4)
然而修匀能力与对外界变化的反映速度是互相矛盾的,两者不能兼得。因此,对于N值一般应视具体情况,采用折衷办法确定。根据过程的实际发展趋势,N值大体有如下四种选择方法:
(1)水平式 也就是趋势保持不变,移动平均值是无编差的,M值与N值无关。
(2)脉冲式 趋势仅在某一段时间突然增加或减少,随后又保持不变,N取得越大,M的误差
越小,因此N应取得较大些。
(3)阶梯式 趋势仅在开始一段时间保持不变,然后增加或减少到一个新的水平后又保持不变,N取得越小,M的误差
越小,因此N应取得较小。
(4)斜坡式 趋势周期的递增或递减,M总是比实际趋向落后,因此N应取得越小越好。
一般情况下,如欲加大原始数据的修正力度,则N宜取大些,如果希望加大对外界变化的反映力度,则 N宜取小些。N的取值范围一般为3~20。
例3 我国1980~1990年工业劳动人数见表,用二次移动平均数法预测1991~1994年的劳动人数。
年份 | 1980 | 1981 | 1982 | 1983 | 1984 | 1985 | 1986 | 1987 | 1988 | 1989 | 1990 |
人数 | 5600 | 5796 | 5930 | 6092 | 6257 | 6567 | 6851 | 7141 | 7436 | 7738 | 8045 |
1980~1990年我国工业劳动人数(万人)(表5)
首先,选择移动平均周期N。本例中数据趋势较明显,呈直线趋势,为尽量反映近期变化动向,可取N=3。利用移动平均公式,首先计算一次移动平均数:
………………………………………………………
在此基础上再计算二次移动平均数:
……………………………………………………………
计算结果见表(4)。根据表(4)的数据可建立线性趋势模型:
前已计算得:
则:
由此得1991~1994年劳动人数分别为8338.7,8638.2,8937.7,和9236.2万人。
(二) 指数平滑模型
在时间序列预测过程中,一般来说历史数据对未来发展的影响是不等价的,数据由近及远对未来的影响价值递减。如果这种递减遵循指数规律,并以此进行预测,则可采用指数平滑法。指数平滑法比移动平均法需要的数据量少,计算更为方便。
一次指数平滑公式为
其中
——t期数据的指数平滑值,α—平滑常数,0<α <1,
-现期数据值。
对上式递推展开 则得
依此类推可得一次指数平滑的一般公式为
上式表明,数据列
的权数分别是α,α(1-α),
即离t时刻越远的数据,权数越小,而且权数的变化呈指数几何级数。
用一次指数平滑法进行预测时,将t期的平滑值作为t+1期的预测值,即
用指数平滑法进行预测时,将会遇到两个影响预测结果的因素,一是初始值
的选取,这是计算其它平滑值的基础,如果数据较多,根据指数平滑的原理,初始值的影响极小,则可用第一个数据代替;如数据较少,可分析数据的发展趋势给定一个估计值,或采用最初几个数据的平均值。
二是平滑常数α的选择,α对平滑效果影响很大。α越大,平滑效果越差,反之,α越小,平滑效果越好。从推导得知:
其中
——指数平滑值方差;
——原始数据方差;
α——平滑常数。
因为0<α<1,故
,这样
的指数平滑值与时间数列
有相同的均值,即
,但方差前者小于后者。从公式中可以看到,在α值较大时,指数平滑值的方差与时间数列
的方差差别不大。α越小,指数平滑值方差减少程度越大。因而指数平滑法是一种滤波器。原始数列各项以一定顺序输入滤波器,而滤波器的输出数据即为指数平滑值的现值。α越小,滤波能力越强,对原始数列修匀程度越好。
与移动平均的N值选择相似,α值的选择亦应采取折衷方式。如果我们认为初始值选择比较正确,意欲充分反映初始值对预测值的影响,α宜选择小些,亦即参与平滑的数据量多些。如果我们认为初始值选择不正确,意欲尽快减少初始值影响,α宣迭择大些,亦即参与平滑数据少些。再者,如果从事长期预测,α宜选择小些,使更多数据参与平滑。如果从事短期预测,则α宜取较大值,使少量数据参与平滑,以加大对近期数据反映的力度。因为α值与预测精度和预测期限间,有一个函数关系,如下图所示。
平滑常数的选择除上述规律外,平滑常数α的选择主要还是依靠经验,视具体问题分别而定。如下几条准则可供参考。
(1)如对初始值的正确性有疑问时,应取较大的α值,以便扩大近期数据的作用,而迅速减少初始值的影响。
(2)如果多项式模型中仅有某一段时间的数据为较优估计值,则需取较大α值,以便减少较早数据的影响。
(3)如时间数列虽有不同规则变动,但长期趋势接近某一稳定常数时,则需取较小的α值(一般为0.05~0.20),使各观察值在现时指数平滑中具有大小接近的权数。
(4)如果时间数列具有迅速且明显的变动趋势,则α宜取较大值(一般取0.3~0.5),使新近数据对于现时的指数平滑值具有较大价值,从而使新近变动趋势能强烈反映在预测值中。
(5)如遇变化甚小的时间数列,则α宜取稍小些(一般取0.1~0.4),使较早的观察值亦能充分反映于指数平滑值中。
据经验统计,α取值范围较大,α =0.1~0.9均可得到较好预测结果。
对于α取值不同,对消除初始值的影响程度、对数据的平滑能力以及对外界变化的反映力度,可以从表(6)和表(7)的数据反映出来。
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
| 3.46 | 3.14 | 5.54 | 2.68 | 2.93 | 3.30 | 2.7 | 4.30 | 3.24 | 2.04 |
| 3.34 | 3.65 | 3.83 | 3.81 | 3.72 | 3.67 | 3.57 | 3.64 | 3.59 | 3.42 |
表 (6)
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
| 3.46 | 3.14 | 5.45 | 2.68 | 2.93 | 3.30 | 2.71 | 4.30 | 3.24 | 2.04 |
| 4.74 | 3.78 | 4.79 | 3.53 | 3.17 | 3.25 | 2.93 | 3.75 | 3.45 | 2.60 |
表 (7)
假设取
并认为初始值是正确的,则取α=0.1,这时随着不断引进新的数据,得到表(6)的平滑数值。
如果另取
并认为初始值不甚正确,取α=0.6,则平滑值如表(7)所示。
表 (8)是用指数平表滑法处理例3数据的结果。表(8)中,对α=0.5,α =0.3分别进行了指数平滑,一次指数平滑值见表第二、第五列。以α=0.5为例,取初始值
,则:
与移动平均法一样,指数平滑法也可进行二次、三次或更多次的平滑。二次指数平滑是以一次指数平滑数据作为原始数据再平滑一次,其公式为
三次指数平滑是二次指数平滑值作原始数据再平滑一次,其公式为
二次、三次指数平滑的例子见表(8),其中以α=0.5为例,则二次指数平滑为
三次指数平滑为
指数平滑法的目的不仅在于对数据进行修匀,同时可用平滑数
例3指数平滑结果表(8)
据建立多项式模型,二次指数平滑值可建立线性模型,三次指数平滑值可建立二次抛物线模型。多项式模型的通式为
其中
——t+τ期的预测值
τ—预测超前时间
| α=0.5 | α=0.3 | |||||
| | | | | | ||
1 2 3 4 5 6 7 8 9 10 11 | 5600 5796 5930 6092 6257 6567 6851 7141 7436 7738 8045 | 5550 5659.5 5794.8 5943.4 6100.2 6333.6 6592.3 6866.7 7151.4 7444.7 7744.9 | 5525 5592.3 5693.6 5818.5 5959.4 6146.5 6369.4 6618.1 6884.8 7164.8 7454.9 | 5512.5 5552.4 5623 5720.8 5840.1 5993.3 6181.3 6399.7 6642.3 6903.6 7179.3 | 5530 5601.7 5700.2 5817.7 5949.5 6134.8 6349.7 6587.2 6841.8 7110.7 7391 | 5509 5536.8 5585.8 5655.4 5743.6 5861 6007.6 6181.5 6379.6 6598.9 6836.5 | 5502.7 5512.9 5534.8 5571.0 5622.8 5694.3 5788.3 5609.3 6048.3 6213.5 6400.4 |
——多项式参数。
预测中常用的模型为
常数模型(零次多项式):
一次多项式(线性模型):
二次多项式(二次抛物线模型):
利用指数平滑法和移动平均法计算多项式待定系数的公式,参看多项式模型参数估算公式(这里省略掉)。以表8中的数据为例,α=0.5时用三次指数平滑值建立抛物线模型,则:
则可建立预测模型为
若预测第13期的值,则:
指数平滑法的主要优点是运算简单,费用低,当需要预测的数据量大时,特别是预测库存时,这种方法比其它方法具有明显优势。
例4 已知某新产品前12个月的销售额如表9,试用指数平滑法建立二次多项式模型,并预测其第13、14个月的销售额。
1 | 2 | 3 | 4 | 5 | 6 |
562.67 | 586.93 | 599.65 | 668.52 | 597.80 | 670.23 |
7 | 8 | 9 | 10 | 11 | 12 |
781.73 | 791.44 | 765.38 | 832.50 | 880.11 | 934.60 |
某产品销售额表(9)
首先取α=0.3,初始值
,通过平滑模型计算得:
计算结果列于表(10)
由表(10)中数据与原始数据对比可见,数据经平滑修匀后,与原始数据编离较大。为此,将α改为0.5,再进行三次指数平滑,结果仍列于表(10)中。平滑结果有所改善,可利用三次平滑数据,建立预测模型:
其中:
从而得:
亦即第13和14个月的新产品销售额预测值分别为989.4和1050.2。
| α=0.3 | α=0.5 | |||||
| | | | | | ||
1 2 3 4 5 6 7 8 9 10 11 12 | 562.67 586.93 599.65 668.52 597.80 670.23 781.73 791.44 765.38 832.50 880.11 934.60 | 567.8 573.5 581.3 607.5 604.6 624.3 6711.5 707.5 724.9 757.2 794.1 836.3 | 569.3 570.6 573.8 583.9 590.1 600.4 621.7 647.4 670.7 696.7 725.9 759 | 569.8 570 571.1 574.9 579.5 585.8 596.6 611.8 629.5 649.7 672.6 698.5 | 566.3 576.6 588.1 628.3 613.1 641.7 711.7 751.6 758.5 795.5 837.8 886.2 | 568.2 572.4 580.3 604.3 608.7 625.2 688.5 710.1 734.3 764.9 801.4 843.8 | 569.1 570.8 575.6 589.9 599.3 612.3 640.4 675.3 704.8 734.9 768.2 806 |
例4指数平滑结果表 (10)
时间序列模型还有分解预测模型,鲍克斯-詹金斯模型。定量预测模型另一类就是因果关系模型。现简要介绍如下:
因果关系模型
因果关系模型是定量预测模型的主要方法之一,主要用于研究不同变量之间的相关关系,用一个或多个自变量的变化来描述因变量的变化
因果关系模型主要包括:趋势外推、回归分析、数量经济模型、投入产出模型、灰色系统模型、系统动力学等。
一. 特点和适用范围
事物的发展不仅取决于自身的发展规律,同时受多种外界因素的影响,如果把预测值作因变量,那么影响预测对象发展的各变量则称作自变量。研究因变量与自变量的关系,则是因果关系模型的任务。因果关系模型在预测中应用最广,它因时间序列模型不同,不仅可以从事短期预测,而且还可以从事中、长期预测,也可以预测宏观、中观、微观问题。
二. 预测程序(略)
三. 预测方法及模型
(一)趋势外推
趋势外推法是一种常用的利用事物过去发展的规律,推导未来趋势的方法,这种方法简单适用,应用面广。在预测方法分类中,有的将其划归为因果关系模型。有的将其划归为时间序列模型,有的将其单列为一类。我们将其划归为因果关系模型。因为趋势外推的模型和预测过程与囬归分析类同,可以作为回归分析的特例,即以时间为自变量的回归分析。运用趋势外推法,要注意它有两个基本假设:(1)事物是在同一条件或相近条件下发展的,即决定过去事物发展的原因,也是决定未来事物发展的原因;(2)事物发展的过程是渐进的,而不是跳跃的。
趋势外推模型种类很多,实用预测中最常用的是一些比较简单的函数模型,如多项式模型、指数曲线、生长曲线和包络曲线等。
1. 多项式模型
很多事物的发展的模型可用多项式表示,下面举几个常用的多项式模型。
一次多项式模型(线性模型):
二次多项式模型(二次抛物线模型):
三次多项式模型(三次抛物线模型):
n次多项式模型(n次抛物线模型):
多项式的系数一般采用最小二乘法计算。下面举例说明如何用多项式进行预测。
例1 某厂自动车床1981~1991年的产量如表(1)所示,试拟合其发展趋势,并预测1992年自动车床的产量。
年份 | 1981 | 1982 | 1983 | 1984 | 1985 | 1986 | 1987 | 1988 | 1989 | 1990 | 1991 |
产量 | 405 | 695 | 898 | 1005 | 1323 | 1708 | 2200 | 24485 | 2499 | 2788 | 3160 |
表(1)
通过图示分析,可知原始数据大致呈抛物线趋势。
首先将数据拟合成二次抛物线:
将原始数据变为t与
的对应关系如表(2)。这里将年份改用时间序号代表。
这里数据个数为11个,即n=11,拟合多项式次数为2。根据多元回归参数估算方法可得:
=81.8264,
=275.002,
=0.4066。因此
t | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 405 | 695 | 898 | 1005 | 1323 | 1798 | 2200 | 2485 | 2499 | 2788 | 3160 |
表(2)
用此模型预测1992年的产量,即t=11得
=3156台
即1992年的自动车床产量的预测数为3156台
2. 指数模型
很多研究表明,大量事物的发展,其定量特征表现为随时间按指数或接近指数规律增长,其公式为
其中
是t=0时
的值。
很多技术特性是符合指数增长规律,如飞机速度、电站容量等。经济发展的很多增长过程也表现为指数增长,如产值、投资等。但是任何事物都不能按指数曲线无限制的发展,因而不能无限制外推,否则将出现不可能结果。因为任何事物的发展都有一个极限值,当接近极限值时,事物将不再按指数规律增长。
指数曲线的参数估算可采用最小二乘法,对于曲线
取自然对数得:
令
则变为线性方程
Y=A+Bt
3. 生长(s)曲线
如考虑极值的影响,发现事物的发展过程如同生物的生长过程一样,经历发生、发展和成熟三个阶段,而每一阶段的发展速度又不相同,如绘在坐标图上形同s,所以生长曲线又称s曲线。生长曲线与指数曲线不同,指数曲线的相对增量是一个常数,例如用微分方程表示为
而生长曲线的相对增量是的一个
的函数
生长曲线有很多种模型,皮尔模型、龚珀兹模型、替代模型等都是生长曲线模型。
(1) 皮尔模型为
其中 L-变量的极值
a, b-常数
t-时间
(2) 龚珀兹模型为
其拐点为 t=(lnb)/k,
(3) 替代模型为
其中
-待替代的百分比
a-每年替代的百分数的一半(即替代开始以后的替代初始速度)
-当
时的时间
t-时间
趋势外推模型还有包络曲线,这里就不作介绍了。
(二) 回归分析
与趋势外推法不同,这种方法主要用研究不同变量之间的相关关系。回归分析不仅是一种应用范围极广的预测方法,同时也是建立数量经济模型的重要基础。回归分析主要包括一元线性回归、多元线性回归、和非线性回归三种,而非线性回归又可通过一定的变换,转变为线性回归形或。
1.一元线性回归
也称直线回归,这种方法可确定两个变量之间的直线关系,简单、适用,即可用于短期预测,也可用于长期预测。其公式为
这里
是预测值,a、b是回归系数,
是自变量
例2 已知1977~1986年的钢材消耗量与国民收入的关系大致呈直线趋势,数据见表(3),用一元回归法拟合其趋势并预测1987年的钢材消耗量。
年份 | 1977 | 1978 | 1979 | 1980 | 1981 | 1982 | 1983 | 1984 | 1985 | 1986 |
国民收入 | 289.3 | 324.9 | 347.6 | 368.8 | 386.9 | 419 | 460 | 522.1 | 588.5 | 632.0 |
钢材消耗量 | 20.13 | 24.46 | 27.36 | 28.25 | 29.58 | 31.54 | 35.15 | 40.06 | 49.83 | 51.93 |
表 (3)
设国民收入为自变量,钢材消耗量为因变量,则回归方程为
由a、b的计算公式可得a、b的值
=0.08996
=
所以一元回归方程为
经检验,模型符合实际,给定自变量X一个值,如1987年国民收入为675亿元,则
即1987年的钢材消费量的预测值为55.429万吨。
2. 多元线性回归
一元回归法虽在预测中比较常用,但它毕竟是一种理想化的形式,在事物发展的局部或某一个侧面、某一个阶段可以用一个自变量反映。但任何事物都不是孤立存在的,都会受到多种因素的影响,技术的发展如此,经济系统更是如此。这时仅依据一个自变量进行预测将难以求得准确的因变量值。在这种情况下,就必须采用多元回归进行分析。多元回归虽然具有预测精度较高的优点,但亦需注意,多个自变量之间容易出现共相关现象,而且计算工作量大,一般需借助计算机进行。多元回归也有多种方法,这里只讲多元线性回归。
多元回归法比一元线性回归法复杂,但应用原理和一元回归方法是一样的。
多元线性回归的基本模型为
其中Y是因变量,X是自变量,m是自变量个数;
是回归系数;
是随机误差。
例3 某科研单位的年收入受每年的科研经费和科研人数的影响,1980~1989年的数据见表(4),试建立多元回归模型并预测科研经费为380万元、研究人数为200人时的年收入。
年代 | 收入(万元) | 科研经费(万元) | 科研人数(人) |
1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 | 235 238 256 254 271 273 289 298 304 318 | 254 257 275 290 295 296 311 318 327 341 | 160 163 166 169 172 175 178 181 184 187 |
表 (4)
经考察分析,数据呈线性关系,其回归方程为
经计算得:
所以回归方程为
当状然还要进行检验,我们不作介绍了。经过相关检验和假设检验,说明所求模型是成立的,将
=380,
=200代入得:
即科研经费为380万元、研究人数为200人时年收入的预测值为347.84万元。